• UID11822
  • 登录2017-07-17
  • 粉丝2
  • 关注0
  • 发帖31
  • 主页http://www.gooseeker.com/
  • 金币214枚
社区居民
原创写手
fullerhua 发布于2016-05-25 16:21
0/834

Python读取PDF内容

楼层直达
1,引言
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。
从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。

2,把pdf转换成文本的Python源代码
下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
   
def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
   
    process_pdf(rsrcmgr, device, pdfFile)
    device.close()
   
    content = retstr.getvalue()
    retstr.close()
    return content
   
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3,展望
这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。

4,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源

5,文档修改历史
2016-05-26:V2.0,增补文字说明
2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址
[fullerhua于2016-05-30 11:12编辑了帖子]

0人打赏
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 72322/370   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 41235/191   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 41216/0   Python爬虫:常用浏览器的useragent

  • 37746/259   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 36379/145   省时省力的Android组件群来了,非常棒的原型参考

  • 28393/2   超全!整理常用的iOS第三方资源

  • 27827/71   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 27657/142   2016抢红包软件及源码

  • 22038/30   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 21782/157   Android版类似UC浏览器:非常赞,产品级的源码

  • 21658/25   Android工程师面试题大全

  • 21479/27   2016程序员跳槽全攻略

  • 21329/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 20210/20   码魂:程序员的牛B漫画

  • 18418/10   2016年最全的Android面试考题+答案 精编版

  • 18153/3   吐槽那些程序员的搞笑牛逼注释

  • 17777/42   一个绚丽的loading动效分析与实现!

  • 17639/85   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 17625/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 17092/1   iOS 动画总结

  • 16553/45   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 16269/23   个人收集的Android 各类功能源代码

  • 16058/81   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 15927/10   女程序员的梦,众网友的神回复

  • 15799/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 15662/104   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 15621/11   年会上现场review代码是怎么样的体验!

  • 15474/21   Android福利第三波【Android电子书】

  • 15387/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 15383/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 15216/23   珍藏多年的素材,灵感搜寻网站

  • 15001/79   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 14810/0   iOS中文版资源库,非常全

  • 14457/18   65条最常用正则表达式,你要的都在这里了

  • 14188/15   基于Android支付宝支付设计和开发方案

  • 13652/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 13446/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 12995/7   一张图搞定iOS学习路线,非常全面

  • 12977/46   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 12905/7   用程序员的姿势抢过年的火车票

  • 12870/0   GitHub iOS 库和框架Top100 

  • 12614/10   成为Java顶尖程序员 ,看这11本书就够了

  • 12487/10   微信支付终于成功了(安卓,iOS),在此分享

  • 12428/18   一张图搞定Android学习路线,非常全面

  • 12253/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 12111/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 12035/29   【持续更新中】Android福利贴(一):资料源码

  • 11486/4   46 个非常有用的 PHP 代码片段

  • 11235/3   即时通信第三方库

  • 10864/8   流媒体视频直播方案

  • 10752/18   八个最优秀的Android Studio插件

  • 10715/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 10582/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 10435/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 10379/10   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 9767/6   开箱即用!Android四款系统架构工具

  • 9574/10   十大技巧快速提升Android应用开发性能

  • 9507/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 9441/3   一张图看清Linux 内核运行原理

  • 9326/1   Android性能优化视频,文档以及工具

  • 返回顶部