代码拉取完成,页面将自动刷新
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re, datetime, random, pymysql
conn = pymysql.connect('112.74.124.220', 'dengqihua', 'dengqihua520', 'phpdoc', charset='utf8')
cur = conn.cursor()
random.seed(datetime.datetime.now())
def store(title, content):
cur.execute("INSERT INTO pages (title, content) VALUES (\"%s\",\"%s\")", (title, content))
cur.connection.commit()
def getLinks(articleUrl):
html = urlopen('http://en.wikipedia.org' + articleUrl)
bsObj = BeautifulSoup(html, 'html.parser')
title = bsObj.find('h1').get_text()
content = bsObj.find('div', {'id': 'mw-content-text'}).find('p').get_text()
store(title, content)
return bsObj.find('div', {'id': 'bodyContent'}).findAll('a', href=re.compile("^(/wiki/)((?!:).)*$"))
links = getLinks('/wiki/Kevin_Bacon')
try:
while len(links) > 0:
newArticle = links[random.randint(0, len(links) - 1)].attrs['href']
print(newArticle)
links = getLinks(newArticle)
finally:
cur.close()
conn.close()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。