4 Star 5 Fork 0

ADu./爬虫-赶集网

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

空文件

简介

一个小爬虫,用来爬取赶集网上每个城市下的功能项的分页数据。 ① 一共有360个城市,每个城市具有一个Host, ② 一个城市网站内部有多种功能项,例如:找房子、找车子、找工作,且每个城市具有的功能项相同。 ③ 每个功能项为分页数据,网页结构相同。 做法: ① 先爬取到每个城市的根链接存入数据库。 ② 因为每个功能项下的网页结构相同,且城市不同也只是更换了Host,所以,我为每个功能项写了一种匹配规则,存入数据库,选取了10种功能项,即10种匹配规则。 ③ 将爬取到的数据按照标签存入数据库。 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Java
1
https://gitee.com/ningyuwen/PaChong-GanJiWang.git
git@gitee.com:ningyuwen/PaChong-GanJiWang.git
ningyuwen
PaChong-GanJiWang
爬虫-赶集网
master

搜索帮助