• UID11822
  • 登录2016-12-13
  • 粉丝1
  • 关注0
  • 发帖31
  • 主页http://www.gooseeker.com/
  • 金币196枚
社区居民
原创写手
fullerhua 发布于2016-06-11 21:59
1/362

Python爬虫实战(2):爬取京东商品列表

楼层直达
1,引言
 
 在上一篇Python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。

 

 我们在《
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》一文已经成功检验了动态网页内容的抓取方法,
本文将实验程序进行改写,使用开源Python爬虫规定的标准python内容提取器,把代码变得非常简洁。
 
 2,技术要点

 

 我们在多个文章说过本开源爬虫的目的:节省程序员的时间。关键是省去编写提取规则的时间,尤其调试规则很花时间,节省时间问题在《1分钟快速生成用于网页内容提取的xslt
》一文已经有了解决方案,本文我们用京东网站作为测试目标,而电商网站都有很多动态内容,比如,产品价格和评论数等等,往往采用后加载的方式,在html源文档加载完成以后再执行javascript代码把动态内容填写上,所以,本案例主要验证动态内容的抓取。
 
 另外,本文案例没有使用GooSeeker爬虫API,而是把MS谋数台生成的xslt脚本程序保存在本地文件中,在程序运行的时候把文件读出来注入到gsExtractor提取器。后续会有专门的案例演示 API的使用方法。

 
 总之,本示例两个技术要点总结如下:

  1. 从本地文件读取xlst程序
  2. 把xlst注入到提取器gsExtractor中,利用xslt从网页上一次提取性多个字段内容。
3,python源代码
# -*- coding:utf-8 -*- 
# 爬取京东商品列表, 以手机商品列表为例
# 示例网址:http://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5
# crawler_jd_list.py
# 版本: V1.0
    
from urllib import request
from lxml import etree
from selenium import webdriver
from gooseeker import gsExtractor
import time
    
class Spider:
    def __init__(self):
        self.scrollpages = 0
        self.waittime = 3
        self.phantomjsPath = 'C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe'
    
    def getContent(self, url):
        browser = webdriver.PhantomJS( executable_path = self.phantomjsPath )
        browser.get(url)
        time.sleep(self.waittime)
        html = browser.execute_script("return document.documentElement.outerHTML")
        doc = etree.HTML(html)
        jdlistExtra = gsExtractor()
        jdlistExtra.setXsltFromFile("jd_list.xml")
        output = jdlistExtra.extract(doc)
        return output
    
    def saveContent(self, filepath, content):
        file_obj = open(filepath, 'w', encoding='UTF-8')
        file_obj.write(content)
        file_obj.close()
    
url = 'http://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5'
jdspider = Spider()
result = jdspider.getContent(url)
jdspider.saveContent('京东手机列表_1.xml', str(result))
源代码下载位置请看文章末尾的GitHub源。
 

 4,抓取结果


运行上面的代码,就会爬取京东手机品类页面的所有手机型号、价格等信息,并保存到本地文件“京东手机列表_1.xml”中。我们用浏览器打开这个结果文件,会看到如下的内容


 5,相关文档

 1, Python即时网络爬虫项目: 内容提取器的定义
 

 6,集搜客GooSeeker开源代码下载源
 1, GooSeeker开源Python网络爬虫GitHub源
 

 7,文档修改历史

 1,
2016-06-11:V1.0

0人打赏
  • UID12
  • 登录2016-06-14
  • 粉丝109
  • 关注50
  • 发帖1415
  • 主页
  • 金币8510枚
社区居民
最爱沙发
忠实会员
喜欢达人
原创写手
极分享 发布于2016-06-11 22:00
沙发F
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 57751/339   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 30996/139   省时省力的Android组件群来了,非常棒的原型参考

  • 30681/187   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 27398/216   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 25743/2   超全!整理常用的iOS第三方资源

  • 23972/70   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 22477/0   Python爬虫:常用浏览器的useragent

  • 21704/137   2016抢红包软件及源码

  • 19619/29   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 19457/25   Android工程师面试题大全

  • 18743/27   2016程序员跳槽全攻略

  • 18665/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 18201/20   码魂:程序员的牛B漫画

  • 16657/3   吐槽那些程序员的搞笑牛逼注释

  • 15762/146   Android版类似UC浏览器:非常赞,产品级的源码

  • 15472/1   iOS 动画总结

  • 14834/41   一个绚丽的loading动效分析与实现!

  • 14415/10   女程序员的梦,众网友的神回复

  • 14250/11   年会上现场review代码是怎么样的体验!

  • 14243/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 14222/83   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 14147/44   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 13825/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 13679/10   2016年最全的Android面试考题+答案 精编版

  • 13672/23   个人收集的Android 各类功能源代码

  • 12936/19   珍藏多年的素材,灵感搜寻网站

  • 12822/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 12469/15   基于Android支付宝支付设计和开发方案

  • 12434/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 12158/74   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 12141/20   Android福利第三波【Android电子书】

  • 12084/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 11621/18   65条最常用正则表达式,你要的都在这里了

  • 11548/94   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 11526/7   用程序员的姿势抢过年的火车票

  • 11501/70   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 11424/7   一张图搞定iOS学习路线,非常全面

  • 11315/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 11075/0   iOS中文版资源库,非常全

  • 10946/10   成为Java顶尖程序员 ,看这11本书就够了

  • 10541/18   一张图搞定Android学习路线,非常全面

  • 10510/10   微信支付终于成功了(安卓,iOS),在此分享

  • 10130/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 10057/44   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 10056/29   【持续更新中】Android福利贴(一):资料源码

  • 10040/0   GitHub iOS 库和框架Top100 

  • 9698/4   46 个非常有用的 PHP 代码片段

  • 9337/3   即时通信第三方库

  • 9329/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 9190/8   流媒体视频直播方案

  • 9137/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 9055/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 9003/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 8910/9   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 8878/18   八个最优秀的Android Studio插件

  • 8443/6   开箱即用!Android四款系统架构工具

  • 8352/3   一张图看清Linux 内核运行原理

  • 8244/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 8229/10   十大技巧快速提升Android应用开发性能

  • 7896/1   Android性能优化视频,文档以及工具

  • 返回顶部