crawler: 基于chrome浏览器的网页爬虫

##########搜索引擎爬虫###########
#说明：
#1)由于神马搜索引擎服务端https协议版本与webmagic sdk的https协议版本不一致，导致无法直接通过发送http请求爬取结果，需要单独启动chrome模拟请求，
#所以神马搜索与其他搜索引擎分开
#2)360搜索有一定的频率限制，同IP短时间内大量发送请求，被服务器判断为异常IP，需要输入验证码,无论通过直接发送http请求或者chrome浏览器请求，都无法绕过

#第一步，复制关键词至xxx.txt
#第二步，在Constant.KeyWordsFile枚举类型中，加入源文件和结果输出文件
#第三步，启动SearchEngineProcessor多线程爬取baidu，sougou，360搜索引擎数据，存入xxx.tmp文件
  	   同时启动MSmRepoPageProcessor单线程启动chrome爬取数据，存入xxx.sm.tmp文件
#第四步，等待结果运行结束
#第五步，启动DistinctFile对tmp文件去重合并，数据最终会导入xxx_result.txt文件

##########html站点爬虫###########
#第一步，在Constant.HtmlSite枚举类型中加入想要爬取的站点和对应内容的xpath
#第二部，启动HtmlSiteProcessor，结果会输出到项目根目录htmlsiteresult
#第三部，启动HtmlSiteSistinctFile，对爬虫结果去重，最终得到结果文件htmlsiteresult.txt

Big-Totoro/crawler

简介

发行版

贡献者

近期动态

Big-Totoro/crawler .gitee-modal { width: 500px !important; }

简介

发行版

贡献者

近期动态

搜索帮助

Big-Totoro/crawler