• UID11822
  • 登录2017-03-02
  • 粉丝1
  • 关注0
  • 发帖31
  • 主页http://www.gooseeker.com/
  • 金币198枚
社区居民
原创写手
fullerhua 发布于2016-06-14 10:41
0/595

Scrapy入门程序点评

楼层直达
1,引言

在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python即时网络爬虫需要一个爬虫框架,GooSeeker不想重复发明轮子,只想专注于爬虫里面的提取器的生成和使用,也就是Scrapy中的Spider部分。

本文大部分内容摘抄自Scrapy官网的《Scrapy at a glance》,看到Scrapy巧妙之处则加了点评。

2,Scrapy的Spider例子

在Scrapy的框架中,Spider与GooSeeker开源爬虫的提取器类似,核心特征是
  • Spider通常针对一个特定网站
  • Spider里面存了爬行入口URLs集合
  • Scrapy的引擎顺序拿Spider中的入口URL,构造Request对象,启动消息循环
  • Spider提供接口方法,把抓取下来的内容进行输出

对由笔者开发的MS谋数台和DS打数机比较了解的读者,可以把Spider想象成:MS谋数台上定义的一组抓取规则 + 会员中心的爬虫罗盘

下面我们从官网拷贝一个例子:
class StackOverflowSpider(scrapy.Spider):
    name = 'stackoverflow'
    start_urls = ['http://stackoverflow.com/questions?sort=votes']
  
    def parse(self, response):
        for href in response.css('.question-summary h3 a::attr(href)'):
            full_url = response.urljoin(href.extract())
            yield scrapy.Request(full_url, callback=self.parse_question)
  
    def parse_question(self, response):
        yield {
            'title': response.css('h1 a::text').extract()[0],
            'votes': response.css('.question .vote-count-post::text').extract()[0],
            'body': response.css('.question .post-text').extract()[0],
            'tags': response.css('.question .post-tag::text').extract(),
            'link': response.url,
        }

看这个例子需要注意以下几点
  • start_urls存储入口网址列表,本例只有一个网址
  • parse()函数是爬到了网页后执行的,是由引擎回调的
  • 本来到parse()就完成了,但是这个例子展示了一个两级抓取的案例,在parse()里面构造了下一级抓取的任务,生成Request对象,并登记一个回调函数
  • parse_question()是第二级的解析网页的函数,返回了一个JSON对象
  • 事件驱动模式显而易见,可以构造好多Request,丢给引擎即可,不用阻塞式等待

官网文章还总结了其他很多功能特性,总之,Scrapy是一个十分完善和强大的框架。

3,接下来的工作
至此,Scrapy框架已经明确选定了,接下来,我们将进一步研读Scrapy的文档,研究怎样把gsExtractor封装成Scrapy需要的Spider

4,文档修改历史
2016-06-14:V1.0,首次发布

0人打赏
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 66680/361   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 37598/190   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 34340/143   省时省力的Android组件群来了,非常棒的原型参考

  • 34077/249   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 33256/0   Python爬虫:常用浏览器的useragent

  • 27375/2   超全!整理常用的iOS第三方资源

  • 26391/71   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 25590/142   2016抢红包软件及源码

  • 21089/30   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 20794/25   Android工程师面试题大全

  • 20456/27   2016程序员跳槽全攻略

  • 20245/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 19636/155   Android版类似UC浏览器:非常赞,产品级的源码

  • 19463/20   码魂:程序员的牛B漫画

  • 17626/10   2016年最全的Android面试考题+答案 精编版

  • 17559/3   吐槽那些程序员的搞笑牛逼注释

  • 16557/42   一个绚丽的loading动效分析与实现!

  • 16556/1   iOS 动画总结

  • 16359/84   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 16351/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 15685/45   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 15339/23   个人收集的Android 各类功能源代码

  • 15317/10   女程序员的梦,众网友的神回复

  • 15078/11   年会上现场review代码是怎么样的体验!

  • 15070/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 14577/80   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 14451/23   珍藏多年的素材,灵感搜寻网站

  • 14419/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 14188/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 14036/98   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 13993/20   Android福利第三波【Android电子书】

  • 13549/75   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 13508/15   基于Android支付宝支付设计和开发方案

  • 13370/18   65条最常用正则表达式,你要的都在这里了

  • 13277/0   iOS中文版资源库,非常全

  • 12973/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 12581/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 12383/7   一张图搞定iOS学习路线,非常全面

  • 12371/7   用程序员的姿势抢过年的火车票

  • 11963/10   成为Java顶尖程序员 ,看这11本书就够了

  • 11821/44   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 11696/18   一张图搞定Android学习路线,非常全面

  • 11604/10   微信支付终于成功了(安卓,iOS),在此分享

  • 11478/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 11477/0   GitHub iOS 库和框架Top100 

  • 11254/29   【持续更新中】Android福利贴(一):资料源码

  • 11070/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 10683/4   46 个非常有用的 PHP 代码片段

  • 10578/3   即时通信第三方库

  • 10267/8   流媒体视频直播方案

  • 10129/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 10052/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 10048/18   八个最优秀的Android Studio插件

  • 9842/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 9790/10   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 9267/6   开箱即用!Android四款系统架构工具

  • 9084/10   十大技巧快速提升Android应用开发性能

  • 9053/3   一张图看清Linux 内核运行原理

  • 9048/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 8769/1   Android性能优化视频,文档以及工具

  • 返回顶部