代码拉取完成,页面将自动刷新
#! /usr/bin/env python3
# coding=utf-8
import Addmethod
import deal_urls
import html_parse
import shuchu
import urls_download
class Spider():
def __init__(self):
self.urls = deal_urls.Urls()
self.download = urls_download.Download()
self.parse = html_parse.Parse()
self.output = shuchu.Output()
self.add_method = Addmethod.Jiexi()
def zhixing(self, root_url):
self.urls.add_one_url(root_url)
new_url = self.urls.get_one_url()
print("现在正在爬取主页,网址url为%s" % (new_url))
html = self.download.xiazai(new_url)
new_urls = self.parse.Parser(new_url, html)
return new_urls
class Spider_additional():
def __init__(self):
self.download = urls_download.Download()
self.parse = html_parse.Parse()
self.add_method = Addmethod.Jiexi()
def zhixing2(self, url):
try:
html = self.download.xiazai(url)
new_url = self.parse.Parser2(url, html)
print("下载地址为:" + new_url)
self.add_method.store(new_url)
self.add_method.store_to_local()
except:
print("下载失败")
if __name__ == "__main__":
root_url = "https://yande.re/post?tags=ame_to_yuki+"
print("欢迎使用,本爬虫可以下载yande站点上的高清图片,默认下载地址为E:\spider_images")
print("您可以修改root_url来爬取你喜好的类型或者作者的图片,为了防止恶意爬虫,没有开发自动翻页功能")
obj = Spider()
urls = obj.zhixing(root_url)
print("解析完毕,开始爬虫,获得以下URL")
for url in urls:
print("开始下载: " + url)
obj2 = Spider_additional()
obj2.zhixing2(url)
print("下载完成")
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。