代码拉取完成,页面将自动刷新
##########搜索引擎爬虫########### #说明: #1)由于神马搜索引擎服务端https协议版本与webmagic sdk的https协议版本不一致,导致无法直接通过发送http请求爬取结果,需要单独启动chrome模拟请求, #所以神马搜索与其他搜索引擎分开 #2)360搜索有一定的频率限制,同IP短时间内大量发送请求,被服务器判断为异常IP,需要输入验证码,无论通过直接发送http请求或者chrome浏览器请求,都无法绕过 #第一步,复制关键词至xxx.txt #第二步,在Constant.KeyWordsFile枚举类型中,加入源文件和结果输出文件 #第三步,启动SearchEngineProcessor多线程爬取baidu,sougou,360搜索引擎数据,存入xxx.tmp文件 同时启动MSmRepoPageProcessor单线程启动chrome爬取数据,存入xxx.sm.tmp文件 #第四步,等待结果运行结束 #第五步,启动DistinctFile对tmp文件去重合并,数据最终会导入xxx_result.txt文件 ##########html站点爬虫########### #第一步,在Constant.HtmlSite枚举类型中加入想要爬取的站点和对应内容的xpath #第二部,启动HtmlSiteProcessor,结果会输出到项目根目录htmlsiteresult #第三部,启动HtmlSiteSistinctFile,对爬虫结果去重,最终得到结果文件htmlsiteresult.txt
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。