https://github.com/trinodb/trino.git
基于搜狗微信搜索的微信公众号爬虫接口
Bilibili用户爬虫 知乎专栏地址:https://zhuanlan.zhihu.com/p/24434456 本文所使用的数据可视化为 infogr.am 该爬虫仅供学习使用
Sina_Spider1: 《新浪微博爬虫分享(一天可抓取 1300 万条数据)》 Sina_Spider2: 《新浪微博分布式爬虫分享》 Sina_Spider3: 《新浪微博爬虫分享(2016年12月01日更新)》 Sina_Spider1为单机版本。 Sina_Spider2在Sina_Spider1的基础上基于scrapy_redis模块实现分布式。 Sina_Spider3增加了Cookie池的维护,优化了种子队列和去重队列。
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。
最近一年贡献:0 次
最长连续贡献:0 日
最近连续贡献:0 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。