3 Star 5 Fork 1

西海岸上海分岸/python爬虫

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
html_parser.py 1.08 KB
一键复制 编辑 原始数据 按行查看 历史
西海岸上海分岸 提交于 2017-04-25 20:12 . 完成
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import re
import urlparse
class HtmlParser(object):
def _get_new_urls(self,new_url,soup):
new_urls = set()
links = soup.find_all('a',href=re.compile(r'/item'))
for v in links:
new_urlc = v['href']
new_full_url = urlparse.urljoin(new_url,new_urlc)
new_urls.add(new_full_url)
return new_urls
def _get_new_data(self,new_url,soup):
res_data = {}
# url
res_data['url'] = new_url
# <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
title_node = soup.find('dd',class_='lemmaWgt-lemmaTitle-title').find('h1')
res_data['title'] = title_node.get_text()
# <div class="lemma-summary" label-module="lemmaSummary">
summary_node = soup.find('div',class_='lemma-summary')
res_data['summary'] = summary_node.get_text()
return res_data
def parse(self,new_url,html_cont):
if new_url is None or html_cont is None:
return
soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
new_urls = self._get_new_urls(new_url,soup)
new_data = self._get_new_data(new_url,soup)
return new_urls,new_data
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/plasr/pythonpachong.git
git@gitee.com:plasr/pythonpachong.git
plasr
pythonpachong
python爬虫
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385