TA 关注的仓库 - O2LEE (liyihz2008)

关注的仓库(18)

Watch O2LEE/w6-李义-289730575

第六周作业： 1-spider：和讯博客爬虫源码 2-data：爬取的数据导出后的EXCEL文件 3-dataAnalysis：以EXCEL为数据源进行数据分析的程

最近更新: 7年前

Watch O2LEE/和讯博客爬虫_hexunblog_selenium

爬虫难度一般，只是博文的点击量和评论数以及作者信息为异步加载，需要使用其他的请求获取此作业实现了两版：第一版使用高效的请求方式进行博文以及点击量评论数的获取：高效，但是需要一次插入一次更新数据库第二版使用了selenium延迟获取博文信息，等整体加载完成后，再获取网页数据：可以一次性拿到所有数据引版本为第二版，执行命令： scrapy crawl spider_hexunblog 数据会存储到本地CSV文件中

最近更新: 7年前

Watch O2LEE/伯乐在线网站博客爬虫_spider_jobbole

伯乐在线网站博客爬虫这次的程序和知乎不一样，难度上低了很多，所以这次的作业对自己来说，想实现两个目标： 1、进一步深刻理解scrapy框架,了解源码 2、实现mysql数据库连接池 pymysqlpool 这次使用了CrawlSpider进行爬虫实现： 1、使用rules对网页上的URL进行提取 2、使用process_links方法对网页上的URL进行过滤，使用了bloom过滤器 3、使用process_request在每一次请求前，对header进行修改，保证UA，HOST这些信息正确 4、在analyse方法里，对网页内容进行判断，如果是博文网页，则进行存储，如果不是，则不做其他操作，CrawlSpider会进一步扫描网页内容中的URL

最近更新: 7年前

Watch O2LEE/知乎网站爬虫_spider_zhihu
暂停

知乎爬虫： 1、暂时没有时间去弄分布式，先把单机版的整理好 2、数据结构见《数据结构设计》 3、项目分了几层 dao - 主要是数据库操作类 service - 主要是对象的服务类 proxy - 主要是HTTPHEADER的组装，IP池的管理（IP池暂时没有使用middlewares.py里有一点实现，但是配置里注释掉了） --其他类的说明： dbm.py - 数据库配置 db_connection.py 数据库连接管理（数据库连接的获取、释放） spider_property.py 是所有全局变量的管理，主要是集中管理一些URL，免得到爬虫代码里改另外，发现python3.6下面没有好的数据库连接池的实现，有空得自己写一套 4、不用登录也可以爬取数据，只是回答的数据只有一页，如果登录后就可以爬取下一页了使不使用登录可以在spider_zhihutopic.py类里使用need_login = False来进行控制，作了个简单的判断而已

最近更新: 7年前

Watch O2LEE/和讯博客爬虫_spider_hexunblog
暂停

和讯博客爬虫爬虫难度一般，只是博文的点击量和评论数以及作者信息为异步加载，需要使用其他的请求获取此作业实现了两版：第一版使用高效的请求方式进行博文以及点击量评论数的获取：高效，但是需要一次插入一次更新数据库第二版使用了selenium延迟获取博文信息，等整体加载完成后，再获取网页数据：可以一次性拿到所有数据

最近更新: 7年前

Watch O2LEE/xtest-python-demo

一个完整的,自动化测试过程: 编写自动化代码运行自动化代码提取测试结果上传测试结果图表化展示结果

最近更新: 7年前

Watch O2LEE/Py3Cache forked from 红薯/Py3Cache

该项目是 J2Cache 的 Python 语言移植版本

最近更新: 7年前

Watch O2LEE/docker-training forked from cyzhang/docker-training

csphere-希云 Docker实训课程-Dockerfile

最近更新: 7年前

O2LEE

Watch O2LEE/w6-李义-289730575

Watch O2LEE/和讯博客爬虫_hexunblog_selenium

Watch O2LEE/伯乐在线网站博客爬虫_spider_jobbole

Watch O2LEE/知乎网站爬虫_spider_zhihu暂停

Watch O2LEE/和讯博客爬虫_spider_hexunblog暂停

Watch O2LEE/xtest-python-demo

Watch O2LEE/Py3Cache forked from 红薯/Py3Cache

Watch O2LEE/docker-training forked from cyzhang/docker-training

搜索帮助

Watch O2LEE/知乎网站爬虫_spider_zhihu
暂停

Watch O2LEE/和讯博客爬虫_spider_hexunblog
暂停