1 Star 3 Fork 1

Actoress/Python简单爬虫-多网图书比价

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
spider_jingdong.py 1.32 KB
一键复制 编辑 原始数据 按行查看 历史
Actoress 提交于 2018-11-26 11:40 . finish 1.0
"""
爬取当当网的内容
"""
import requests
from lxml import html
def spider(SN, book_list=[]):
URL = 'https://search.jd.com/Search'
# 获取html内容
resp = requests.get(URL, params={
'keyword': SN
})
print(resp.encoding)
resp.encoding = 'utf-8' # 修改编码
html_data = resp.text
# xpath对象
selector = html.fromstring(html_data)
# 找到书本列表
ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li')
print(len(ul_list))
# 输出每个书籍的内容
for li in ul_list:
title = li.xpath('div[@class="gl-i-wrap"]/div[@class="p-img"]/a/@title') # 图书标题
link = li.xpath('div[@class="gl-i-wrap"]/div[@class="p-img"]/a/@href') # 图书链接
price = li.xpath('div[@class="gl-i-wrap"]/div[@class="p-price"]/strong/i/text()')
store = li.xpath('div[@class="gl-i-wrap"]/div[@class="p-shopnum"]/a/text()')
print(title[0])
print('京东网售价:¥', price[0])
print(link[0])
print('未知商家' if len(store) == 0 else store[0])
print('------------------')
book_list.append({
'title': title[0],
'price': price[0],
'link': link[0],
'store': store
})
if __name__ == '__main__':
SN = '9787115428028'
spider(SN)
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/Actoress/practical_python_tools.git
git@gitee.com:Actoress/practical_python_tools.git
Actoress
practical_python_tools
Python简单爬虫-多网图书比价
master

搜索帮助