代码拉取完成,页面将自动刷新
#! /usr/bin/env python3
# coding=utf-8
import Addmethod
import deal_urls
import html_parse
import shuchu
import urls_download
class Spider():
def __init__(self):
self.urls = deal_urls.Urls()
self.download = urls_download.Download()
self.parse = html_parse.Parse()
self.output = shuchu.Output()
self.add_method = Addmethod.Jiexi()
def zhixing(self, root_url):
self.urls.add_one_url(root_url)
new_url = self.urls.get_one_url()
print("现在正在爬取主页,网址url为%s" % (new_url))
html = self.download.xiazai(new_url)
new_urls = self.parse.Parser(new_url, html)
print("恭喜您,主页爬取成功,获得以下URL")
for url in new_urls:
print(url)
for url in new_urls:
htm = self.download.xiazai(url)
new_data = self.add_method.get_data(url, htm)
print(new_data)
'''这里可以调用一个方法,用字典存在数组里'''
self.output.collect(new_data)
self.output.add_redis()
if __name__ == "__main__":
root_url = "https://yande.re/post"
obj = Spider()
obj.zhixing(root_url)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。