1 Star 0 Fork 0

xyislove/python-test

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
requests正则简易测试.py 1.71 KB
一键复制 编辑 原始数据 按行查看 历史
xyislove 提交于 2021-11-13 03:25 . 11.13
import requests
import re
from fake_useragent import UserAgent
import csv
import codecs #修正写入csv乱码问题
import os
# 获取网页源代码 适用于直接默认解码
def get_source(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers)
return resp
# 获取网页源代码 适用于gb2321编码的网页
def get_source_gb2312(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers).content.decode('gb2312')
return resp
# 获取网页源代码 适用于utf-8编码的网页
def get_source_utf_8(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers).content.decode('utf_8')
return resp
def analyes_fa_page(page_source):
obj1=re.compile(r'charset=gb2312">.*?《(?P<name>.*?)》',re.S)
obj2=re.compile(r'https://img9.doubanio.com/view/photo/l_ratio_poster/public/.*?jpg',re.S)
obj3=re.compile(r'magnet:.*?"',re.S)
r1=obj1.search(page_source)
print(r1.group('name'))
r2=obj2.search(page_source)
print(r2.group())
r3=obj3.search(page_source)
print(r3.group())
if __name__=='__main__':
# 待测试的网址
url='https://ygdy8.com/html/gndy/jddy/20210915/61852.html'
# https://www.ygdy8.com/html/gndy/jddy/20211107/62013.html
resp=get_source(url)
# resp.encoding('gb2312')
resp.encoding='gb2312'
page_source=resp.text
analyes_fa_page(page_source)
# print(page_source)
# 或 resp.encoding='gb2312' 指定字符集
# print(resp)
# 网页处理:若代码用utf-8,网页为gbk,则需要这样处理:
# html= html.decode(“gbk”).encode(“utf-8”)
# 封神・托塔天王 133
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/xyislove/python-test.git
git@gitee.com:xyislove/python-test.git
xyislove
python-test
python-test
master

搜索帮助