2 Star 0 Fork 0

crossin/crawler

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
ex5_pyspider_jd_v2.py 1011 Bytes
一键复制 编辑 原始数据 按行查看 历史
Crossin Yuan 提交于 2017-05-08 16:16 . update
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-04-20 15:35:10
# Project: jd_test
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
# 'headers': {
# 'User-Agent': 'Chrome',
# 'Cookie': 'xxx'
# },
# 'proxy': '123.123.123.123:8000'
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('m.jd.com', callback=self.index_page, headers={}, proxy='')
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
link = each.attr.href
if '/mall/active/' in link:
self.crawl(link, callback=self.index_page)
elif '/ware/' in link:
self.crawl(link, callback=self.detail_page)
@config(priority=2)
def detail_page(self, response):
return {
"url": response.url,
"title": response.doc('title').text(),
}
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/crossin/crawler.git
git@gitee.com:crossin/crawler.git
crossin
crawler
crawler
master

搜索帮助

D67c1975 1850385 1daf7b77 1850385