1 Star 0 Fork 0

quyihuang/爬虫_yande

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
Spider_true_mian.py 1.02 KB
一键复制 编辑 原始数据 按行查看 历史
quyihuang 提交于 2019-01-31 09:28 . 源程序
#! /usr/bin/env python3
# coding=utf-8
import Addmethod
import deal_urls
import html_parse
import shuchu
import urls_download
class Spider():
def __init__(self):
self.urls = deal_urls.Urls()
self.download = urls_download.Download()
self.parse = html_parse.Parse()
self.output = shuchu.Output()
self.add_method = Addmethod.Jiexi()
def zhixing(self, root_url):
self.urls.add_one_url(root_url)
new_url = self.urls.get_one_url()
print("现在正在爬取主页,网址url为%s" % (new_url))
html = self.download.xiazai(new_url)
new_urls = self.parse.Parser(new_url, html)
print("恭喜您,主页爬取成功,获得以下URL")
for url in new_urls:
print(url)
for url in new_urls:
htm = self.download.xiazai(url)
new_data = self.add_method.get_data(url, htm)
print(new_data)
'''这里可以调用一个方法,用字典存在数组里'''
self.output.collect(new_data)
self.output.add_redis()
if __name__ == "__main__":
root_url = "https://yande.re/post"
obj = Spider()
obj.zhixing(root_url)
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/quyihuang/crawler__yande.git
git@gitee.com:quyihuang/crawler__yande.git
quyihuang
crawler__yande
爬虫_yande
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385