代码拉取完成,页面将自动刷新
import requests
import re
from fake_useragent import UserAgent
import csv
import codecs #修正写入csv乱码问题
import os
# 获取网页源代码 适用于直接默认解码
def get_source(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers)
return resp
# 获取网页源代码 适用于gb2321编码的网页
def get_source_gb2312(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers).content.decode('gb2312')
return resp
# 获取网页源代码 适用于utf-8编码的网页
def get_source_utf_8(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers).content.decode('utf_8')
return resp
def analyes_fa_page(page_source):
obj1=re.compile(r'charset=gb2312">.*?《(?P<name>.*?)》',re.S)
obj2=re.compile(r'https://img9.doubanio.com/view/photo/l_ratio_poster/public/.*?jpg',re.S)
obj3=re.compile(r'magnet:.*?"',re.S)
r1=obj1.search(page_source)
print(r1.group('name'))
r2=obj2.search(page_source)
print(r2.group())
r3=obj3.search(page_source)
print(r3.group())
if __name__=='__main__':
# 待测试的网址
url='https://ygdy8.com/html/gndy/jddy/20210915/61852.html'
# https://www.ygdy8.com/html/gndy/jddy/20211107/62013.html
resp=get_source(url)
# resp.encoding('gb2312')
resp.encoding='gb2312'
page_source=resp.text
analyes_fa_page(page_source)
# print(page_source)
# 或 resp.encoding='gb2312' 指定字符集
# print(resp)
# 网页处理:若代码用utf-8,网页为gbk,则需要这样处理:
# html= html.decode(“gbk”).encode(“utf-8”)
# 封神・托塔天王 133
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。