• UID11822
  • 登录2017-03-02
  • 粉丝1
  • 关注0
  • 发帖31
  • 主页http://www.gooseeker.com/
  • 金币198枚
社区居民
原创写手
fullerhua 发布于2016-05-20 10:41
0/617

1分钟快速生成用于网页内容提取的xslt

楼层直达
1,项目背景
Python即时网络爬虫项目说明一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。
网友必然会质疑:这个xslt这么长,编写不是要花很长时间?
实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2,MS谋数台能做什么
MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:
  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点
MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3,用MS谋数台生成XSLT
假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来
通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4,怎样使用XSLT
python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在python即时网络爬虫项目: 内容提取器的定义一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。
5,文档修改历史
2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明
[fullerhua于2016-05-30 09:52编辑了帖子]

0人打赏
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 64798/359   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 36181/189   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 33661/143   省时省力的Android组件群来了,非常棒的原型参考

  • 32598/243   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 31130/0   Python爬虫:常用浏览器的useragent

  • 27087/2   超全!整理常用的iOS第三方资源

  • 25960/71   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 24689/139   2016抢红包软件及源码

  • 20813/30   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 20531/25   Android工程师面试题大全

  • 20104/27   2016程序员跳槽全攻略

  • 19947/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 19235/20   码魂:程序员的牛B漫画

  • 18776/151   Android版类似UC浏览器:非常赞,产品级的源码

  • 17380/3   吐槽那些程序员的搞笑牛逼注释

  • 17348/10   2016年最全的Android面试考题+答案 精编版

  • 16325/1   iOS 动画总结

  • 16207/41   一个绚丽的loading动效分析与实现!

  • 15918/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 15915/84   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 15354/44   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 15149/10   女程序员的梦,众网友的神回复

  • 15054/23   个人收集的Android 各类功能源代码

  • 14924/11   年会上现场review代码是怎么样的体验!

  • 14845/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 14177/23   珍藏多年的素材,灵感搜寻网站

  • 14108/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 14014/77   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 13780/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 13491/94   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 13467/20   Android福利第三波【Android电子书】

  • 13293/15   基于Android支付宝支付设计和开发方案

  • 13119/18   65条最常用正则表达式,你要的都在这里了

  • 13058/72   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 12847/0   iOS中文版资源库,非常全

  • 12804/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 12334/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 12232/7   一张图搞定iOS学习路线,非常全面

  • 12206/7   用程序员的姿势抢过年的火车票

  • 11728/10   成为Java顶尖程序员 ,看这11本书就够了

  • 11493/18   一张图搞定Android学习路线,非常全面

  • 11481/44   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 11424/10   微信支付终于成功了(安卓,iOS),在此分享

  • 11290/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 11186/0   GitHub iOS 库和框架Top100 

  • 11037/29   【持续更新中】Android福利贴(一):资料源码

  • 10685/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 10507/4   46 个非常有用的 PHP 代码片段

  • 10364/3   即时通信第三方库

  • 10052/8   流媒体视频直播方案

  • 9940/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 9916/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 9800/18   八个最优秀的Android Studio插件

  • 9640/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 9565/10   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 9067/6   开箱即用!Android四款系统架构工具

  • 8901/10   十大技巧快速提升Android应用开发性能

  • 8888/3   一张图看清Linux 内核运行原理

  • 8853/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 8559/1   Android性能优化视频,文档以及工具

  • 返回顶部