1 Star 0 Fork 0

Big-Totoro/crawler

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
##########搜索引擎爬虫###########
#说明:
#1)由于神马搜索引擎服务端https协议版本与webmagic sdk的https协议版本不一致,导致无法直接通过发送http请求爬取结果,需要单独启动chrome模拟请求,
#所以神马搜索与其他搜索引擎分开
#2)360搜索有一定的频率限制,同IP短时间内大量发送请求,被服务器判断为异常IP,需要输入验证码,无论通过直接发送http请求或者chrome浏览器请求,都无法绕过

#第一步,复制关键词至xxx.txt
#第二步,在Constant.KeyWordsFile枚举类型中,加入源文件和结果输出文件
#第三步,启动SearchEngineProcessor多线程爬取baidu,sougou,360搜索引擎数据,存入xxx.tmp文件
  	   同时启动MSmRepoPageProcessor单线程启动chrome爬取数据,存入xxx.sm.tmp文件
#第四步,等待结果运行结束
#第五步,启动DistinctFile对tmp文件去重合并,数据最终会导入xxx_result.txt文件

##########html站点爬虫###########
#第一步,在Constant.HtmlSite枚举类型中加入想要爬取的站点和对应内容的xpath
#第二部,启动HtmlSiteProcessor,结果会输出到项目根目录htmlsiteresult
#第三部,启动HtmlSiteSistinctFile,对爬虫结果去重,最终得到结果文件htmlsiteresult.txt

空文件

简介

基于chrome浏览器的网页爬虫 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/Big-Totoro/crawler.git
git@gitee.com:Big-Totoro/crawler.git
Big-Totoro
crawler
crawler
master

搜索帮助