第六周作业: 1-spider:和讯博客爬虫源码 2-data:爬取的数据导出后的EXCEL文件 3-dataAnalysis:以EXCEL为数据源进行数据分析的程
最近更新: 7年前爬虫难度一般,只是博文的点击量和评论数以及作者信息为异步加载,需要使用其他的请求获取 此作业实现了两版: 第一版使用高效的请求方式进行博文以及点击量评论数的获取:高效,但是需要一次插入一次更新数据库 第二版使用了selenium延迟获取博文信息,等整体加载完成后,再获取网页数据:可以一次性拿到所有数据 引版本为第二版,执行命令: scrapy crawl spider_hexunblog 数据会存储到本地CSV文件中
最近更新: 7年前伯乐在线网站博客爬虫 这次的程序和知乎不一样,难度上低了很多,所以这次的作业对自己来说,想实现两个目标: 1、进一步深刻理解scrapy框架,了解源码 2、实现mysql数据库连接池 pymysqlpool 这次使用了CrawlSpider进行爬虫实现: 1、使用rules对网页上的URL进行提取 2、使用process_links方法对网页上的URL进行过滤,使用了bloom过滤器 3、使用process_request在每一次请求前,对header进行修改,保证UA,HOST这些信息正确 4、在analyse方法里,对网页内容进行判断,如果是博文网页,则进行存储,如果不是,则不做其他操作,CrawlSpider会进一步扫描网页内容中的URL
最近更新: 7年前知乎爬虫: 1、暂时没有时间去弄分布式,先把单机版的整理好 2、数据结构见《数据结构设计》 3、项目分了几层 dao - 主要是数据库操作类 service - 主要是对象的服务类 proxy - 主要是HTTPHEADER的组装,IP池的管理(IP池暂时没有使用middlewares.py里有一点实现,但是配置里注释掉了) --其他类的说明: dbm.py - 数据库配置 db_connection.py 数据库连接管理(数据库连接的获取、释放) spider_property.py 是所有全局变量的管理,主要是集中管理一些URL,免得到爬虫代码里改 另外,发现python3.6下面没有好的数据库连接池的实现,有空得自己写一套 4、不用登录也可以爬取数据,只是回答的数据只有一页,如果登录后就可以爬取下一页了 使不使用登录可以在spider_zhihutopic.py类里使用need_login = False来进行控制,作了个简单的判断而已
最近更新: 7年前和讯博客爬虫 爬虫难度一般,只是博文的点击量和评论数以及作者信息为异步加载,需要使用其他的请求获取 此作业实现了两版: 第一版使用高效的请求方式进行博文以及点击量评论数的获取:高效,但是需要一次插入一次更新数据库 第二版使用了selenium延迟获取博文信息,等整体加载完成后,再获取网页数据:可以一次性拿到所有数据
最近更新: 7年前csphere-希云 Docker实训课程-Dockerfile
最近更新: 7年前