master

分支 (1)

管理

管理

master

DenseSpider
/
ChangeLog.txt

2015-3-1
基于 go_spider stable 1.2 开发
1. 采集结果db支持
2. 抽取xpath支持

2015-3-6
1. 分析入口URL，将页面内URL作为新的Request，支持URL层级、入口URL同站点请求
2. 排除指定的规则链接，将指定规则的链接加入请求队列

2015-3-19
1.在解析网页链接时判断当前页面层级，等于最大层级则不再解析链接，避免无效解析
2.判断是否同站点是否排除
3.加入Request队列，判断URL是否在日志队列中  （加入队列时采用page对象，而不是用spider 在Processor中添加，这里需要修改）
4.网页判重(初步只判断URL,将URL 规范化)

2015-3-21
1. 排除指定的规则链接，将指定规则的链接加入请求队列
2. 采集URL日志持久化

2015-3-27
1. 调整分析网页的路径加入Request的方式，采用page对象添加，使spider和page避免循环引用
2. http 下载 UserAgent支持