代码拉取完成,页面将自动刷新
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-04-20 15:35:10
# Project: jd_test
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
# 'headers': {
# 'User-Agent': 'Chrome',
# 'Cookie': 'xxx'
# },
# 'proxy': '123.123.123.123:8000'
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('m.jd.com', callback=self.index_page, headers={}, proxy='')
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
link = each.attr.href
if '/mall/active/' in link:
self.crawl(link, callback=self.index_page)
elif '/ware/' in link:
self.crawl(link, callback=self.detail_page)
@config(priority=2)
def detail_page(self, response):
return {
"url": response.url,
"title": response.doc('title').text(),
}
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。