1 Star 0 Fork 96

jee/DenseSpider

forked from wisechar/dense-spider 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
ChangeLog.txt 926 Bytes
一键复制 编辑 原始数据 按行查看 历史
2015-3-1
基于 go_spider stable 1.2 开发
1. 采集结果db支持
2. 抽取xpath支持
2015-3-6
1. 分析入口URL,将页面内URL作为新的Request,支持URL层级、入口URL同站点请求
2. 排除指定的规则链接,将指定规则的链接加入请求队列
2015-3-19
1.在解析网页链接时判断当前页面层级,等于最大层级则不再解析链接,避免无效解析
2.判断是否同站点是否排除
3.加入Request队列,判断URL是否在日志队列中 (加入队列时采用page对象,而不是用spider 在Processor中添加,这里需要修改)
4.网页判重(初步只判断URL,将URL 规范化)
2015-3-21
1. 排除指定的规则链接,将指定规则的链接加入请求队列
2. 采集URL日志持久化
2015-3-27
1. 调整分析网页的路径加入Request的方式,采用page对象添加,使spider和page避免循环引用
2. http 下载 UserAgent支持
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/jempson/DenseSpider.git
git@gitee.com:jempson/DenseSpider.git
jempson
DenseSpider
DenseSpider
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385