• UID14721
  • 登录2016-12-05
  • 粉丝0
  • 关注0
  • 发帖2
  • 主页
  • 金币18枚
git_CfiiP214799 发布于2016-11-24 11:46
0/172

实用的开源百度云分享爬虫项目yunshare - 安装篇

楼层直达
今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare



百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发



安装

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare cnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去npm.taobao.org上面找。



初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babel node dist/script/init.js

注意必须先运行gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json,里面,是从页面 http://yun.baidu.com/pcloud/fr ... b%3D1 保存下来的。



启动项目

yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list,正常运行的应该有4个任务。



启动elasticsearch索引

elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js

默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js里面修改,修改任何js源码之后记得运行gulp babel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。



DEMO

网盘搜索

下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。

0人打赏
您需要登录后才可以回帖
发表回复
极贡献
技术问答
专题荟萃
程序人生
视觉设计
Android开发
iOS开发
编程语言
前端开发
后端开发
服务器架构
软件测试
运维方案
创业路上



最热文章墙

  • 57867/339   【精品推荐】200多种Android动画效果的强悍框架,太全了,不看这个,再有动画的问题,不理你了^@^

  • 31034/139   省时省力的Android组件群来了,非常棒的原型参考

  • 30723/187   情人节福利,程序员表白的正确姿势:改几行代码就变成自己的表白了

  • 27508/217   【精品推荐】Android版产品级的音乐播放器源码,功能太强大了,最好的产品原型有木有?

  • 25767/2   超全!整理常用的iOS第三方资源

  • 24016/70   原创表白APP,以程序员的姿势备战新年后的7夕,持续完善中!

  • 22667/0   Python爬虫:常用浏览器的useragent

  • 21769/137   2016抢红包软件及源码

  • 19631/29   麻省理工的一帮疯子,真的实现了随意操控万物!(绝对黑科技)

  • 19474/25   Android工程师面试题大全

  • 18763/27   2016程序员跳槽全攻略

  • 18673/9   GitHub上排名前50的iOS项目:总有一款你用得着

  • 18228/20   码魂:程序员的牛B漫画

  • 16667/3   吐槽那些程序员的搞笑牛逼注释

  • 15804/146   Android版类似UC浏览器:非常赞,产品级的源码

  • 15477/1   iOS 动画总结

  • 14851/41   一个绚丽的loading动效分析与实现!

  • 14451/10   女程序员的梦,众网友的神回复

  • 14277/83   Android小而全的博客源码:非常适合全面掌握开发技巧

  • 14265/73   【持续更新中】Android福利贴(二):资料源码大放送

  • 14255/11   年会上现场review代码是怎么样的体验!

  • 14165/44   惊艳的App引导页:背景图片切换加各个页面动画效果

  • 13843/5   新一代Android渠道打包工具:1000个渠道包只需要5秒

  • 13734/10   2016年最全的Android面试考题+答案 精编版

  • 13707/23   个人收集的Android 各类功能源代码

  • 12942/19   珍藏多年的素材,灵感搜寻网站

  • 12839/53   基于瀑布流的美女图片浏览App,有注释的源代码

  • 12486/15   基于Android支付宝支付设计和开发方案

  • 12449/17   用JavaScript 来开发iOS和Android 原生应用:React Native开源框架中文版来啦

  • 12180/74   仿京东商城客户端Android最新版,不错的原型和学习资料

  • 12162/20   Android福利第三波【Android电子书】

  • 12094/17   什么是真正的黑客:收获12200+Stars,人气远超微软开源VS

  • 11641/18   65条最常用正则表达式,你要的都在这里了

  • 11574/94   Android带弹幕的视频播放器源码,来自大名鼎鼎的Bilibili弹幕网站

  • 11548/7   用程序员的姿势抢过年的火车票

  • 11544/70   【精品推荐】类似360安全卫士安Android源码:非常赞的产品原型

  • 11442/7   一张图搞定iOS学习路线,非常全面

  • 11327/11   有木有这样一张酷图帮你集齐所有git命令超实用

  • 11137/0   iOS中文版资源库,非常全

  • 10954/10   成为Java顶尖程序员 ,看这11本书就够了

  • 10552/18   一张图搞定Android学习路线,非常全面

  • 10517/10   微信支付终于成功了(安卓,iOS),在此分享

  • 10165/3   基于Node.js的强大爬虫,能直接发布抓取的文章哦

  • 10083/0   GitHub iOS 库和框架Top100 

  • 10078/44   在线音乐播放器完整版(商用级的源码):非常赞,可听免费高品质专辑

  • 10072/29   【持续更新中】Android福利贴(一):资料源码

  • 9715/4   46 个非常有用的 PHP 代码片段

  • 9358/3   即时通信第三方库

  • 9335/9   烧了5亿美金,这家神秘的公司即将颠覆人类未来!

  • 9198/8   流媒体视频直播方案

  • 9159/61   【技巧一】搭配Android Studio,如何实现App远程真机debug?

  • 9060/9   B站建开源工作组:APP想支持炫酷弹幕的看过来

  • 9006/2   【精品推荐】高质量PHP代码的50个实用技巧:非常值得收藏

  • 8916/9   中国黑客的隐秘江湖:攻守对立,顶尖高手月入千万美元

  • 8884/18   八个最优秀的Android Studio插件

  • 8447/6   开箱即用!Android四款系统架构工具

  • 8356/3   一张图看清Linux 内核运行原理

  • 8248/3   10款GitHub上最火爆的国产开源项目——可以媲美西半球

  • 8234/10   十大技巧快速提升Android应用开发性能

  • 7902/1   Android性能优化视频,文档以及工具

  • 返回顶部