• UID11822
  • 登录2016-12-13
  • 粉丝1
  • 关注0
  • 发帖31
  • 主页http://www.gooseeker.com/
  • 金币196枚
社区居民
原创写手
fullerhua 发布于2016-06-16 11:43
0/471

Scrapy:python3下的第一次运行测试

楼层直达

图片:python12.jpg


1,引言

Scrapy的架构初探》一文讲解了Scrapy的架构,本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子,完整的代码可以在github上下载。

2,运行环境配置
  • 本次测试的环境是:Windows10, Python3.4.3 32bit
  • 安装Scrapy :   $ pip install Scrapy                 #实际安装时,由于服务器状态的不稳定,出现好几次中途退出的情况

3,编写运行第一个Scrapy爬虫

3.1. 生成一个新项目:tutorial
$ scrapy startproject tutorialv
项目目录结构如下:


3.2.  定义要抓取的item
# -*- coding: utf-8 -*-
  
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
  
import scrapy
  
class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()
3.3. 定义Spider
import scrapy
from tutorial.items import DmozItem
  
class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
  
    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            item = DmozItem()
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()
            yield item
3.4. 运行
$ scrapy crawl dmoz -o item.json
1) 结果报错:
  A) ImportError: cannot import name '_win32stdio'

  B) ImportError: No module named 'win32api'

2) 查错过程:查看官方的FAQstackoverflow上的信息,原来是scrapy在python3上测试还不充分,还有小问题。

3) 解决过程:
   A) 需要手工去下载
twisted/internet下的 _win32stdio 和 _pollingfile,存放到python目录的lib\sitepackages\twisted\internet下
   B) 下载并安装pywin32

再次运行,成功!在控制台上可以看到scrapy的输出信息,待运行完成退出后,到项目目录打开结果文件items.json, 可以看到里面以json格式存储的爬取结果
[
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []},
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []}
]

第一次运行scrapy的测试成功。

4,接下来的工作

接下来,我们将使用GooSeeker API来实现网络爬虫,省掉对每个item人工去生成和测试xpath的工作量。目前有2个计划:
  1. 在gsExtractor中封装一个方法:从xslt内容中自动提取每个item的xpath
  2. 从gsExtractor的提取结果中自动提取每个item的结果

具体选择哪个方案,将在接下来的实验中确定,并发布到gsExtractor新版本中

5,文档修改历史
2016-06-16:V1.0,首次发布

0人打赏
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 59909/343   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 33115/188   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 31792/141   省时省力的Android组件群来了,非常棒的原型参考

  • 28843/223   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 26182/2   超全!整理常用的iOS第三方资源

  • 25584/0   Python爬虫:常用浏览器的useragent

  • 24676/70   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 22842/138   2016抢红包软件及源码

  • 19938/29   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 19784/25   Android工程师面试题大全

  • 19190/27   2016程序员跳槽全攻略

  • 18982/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 18500/20   码魂:程序员的牛B漫画

  • 16859/3   吐槽那些程序员的搞笑牛逼注释

  • 16782/149   Android版类似UC浏览器:非常赞,产品级的源码

  • 15690/1   iOS 动画总结

  • 15210/41   一个绚丽的loading动效分析与实现!

  • 15195/10   2016年最全的Android面试考题+答案 精编版

  • 14779/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 14723/83   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 14649/10   女程序员的梦,众网友的神回复

  • 14508/44   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 14456/11   年会上现场review代码是怎么样的体验!

  • 14158/23   个人收集的Android 各类功能源代码

  • 14077/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 13260/19   珍藏多年的素材,灵感搜寻网站

  • 13212/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 12872/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 12754/15   基于Android支付宝支付设计和开发方案

  • 12714/74   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 12494/20   Android福利第三波【Android电子书】

  • 12310/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 12127/18   65条最常用正则表达式,你要的都在这里了

  • 12116/94   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 11989/70   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 11721/7   用程序员的姿势抢过年的火车票

  • 11666/7   一张图搞定iOS学习路线,非常全面

  • 11606/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 11584/0   iOS中文版资源库,非常全

  • 11139/10   成为Java顶尖程序员 ,看这11本书就够了

  • 10873/18   一张图搞定Android学习路线,非常全面

  • 10810/10   微信支付终于成功了(安卓,iOS),在此分享

  • 10458/44   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 10428/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 10336/29   【持续更新中】Android福利贴(一):资料源码

  • 10329/0   GitHub iOS 库和框架Top100 

  • 9903/4   46 个非常有用的 PHP 代码片段

  • 9672/3   即时通信第三方库

  • 9563/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 9496/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 9447/8   流媒体视频直播方案

  • 9299/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 9181/18   八个最优秀的Android Studio插件

  • 9151/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 9056/9   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 8620/6   开箱即用!Android四款系统架构工具

  • 8515/3   一张图看清Linux 内核运行原理

  • 8413/10   十大技巧快速提升Android应用开发性能

  • 8389/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 8073/1   Android性能优化视频,文档以及工具

  • 返回顶部