代码拉取完成,页面将自动刷新
同步操作将从 Actoress/Python简单爬虫-多网图书比价 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
"""
爬取当当网的内容
"""
import requests
from lxml import html
def spider(SN, book_list=[]):
URL = 'http://search.dangdang.com/?key={sn}&act=input'.format(sn = SN)
# 获取html内容
html_data = requests.get(URL).text
# xpath对象
selector = html.fromstring(html_data)
# 找到书本列表
ul_list = selector.xpath('//div[@id="search_nature_rg"]/ul/li')
print(len(ul_list))
# 输出每个书籍的内容
for li in ul_list:
title = li.xpath('a/@title') # 图书标题
link = li.xpath('a/@href') # 图书链接
price = li.xpath('p[@class="price"]/span[@class="search_now_price"]/text()')
store = li.xpath('p[@class="search_shangjia"]/a/text()')
print(title[0])
print(price[0].replace('¥', '当当网售价:¥'))
print(link[0])
print('当当自营' if len(store) == 0 else store[0])
print('------------------')
book_list.append({
'title': title[0],
'price': price[0].replace('¥', ''),
'link': link[0],
'store': store
})
if __name__ == '__main__':
SN = '9787115428028'
spider(SN)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。