一个小爬虫,用来爬取赶集网上每个城市下的功能项的分页数据。
① 一共有360个城市,每个城市具有一个Host,
② 一个城市网站内部有多种功能项,例如:找房子、找车子、找工作,且每个城市具有的功能项相同。
③ 每个功能项为分页数据,网页结构相同。
做法:
① 先爬取到每个城市的根链接存入数据库。
② 因为每个功能项下的网页结构相同,且城市不同也只是更换了Host,所以,我为每个功能项写了一种匹配规则,存入数据库,选取了10种功能项,即10种匹配规则。
③ 将爬取到的数据按照标签存入数据库。
展开
收起