python-test
/
requests正则简易测试.py

import requests
import re
from fake_useragent import UserAgent
import csv
import codecs #修正写入csv乱码问题
import os

# 获取网页源代码  适用于直接默认解码
def get_source(url):
    ua=UserAgent()
    headers={'User-Agent':ua.random}
    resp=requests.get(url,headers=headers)

    return resp

# 获取网页源代码  适用于gb2321编码的网页
def get_source_gb2312(url):
    ua=UserAgent()
    headers={'User-Agent':ua.random}
    resp=requests.get(url,headers=headers).content.decode('gb2312')
    return resp

# 获取网页源代码  适用于utf-8编码的网页
def get_source_utf_8(url):
    ua=UserAgent()
    headers={'User-Agent':ua.random}
    resp=requests.get(url,headers=headers).content.decode('utf_8')
    return resp

def analyes_fa_page(page_source):
    obj1=re.compile(r'charset=gb2312">.*?《(?P<name>.*?)》',re.S)
    obj2=re.compile(r'https://img9.doubanio.com/view/photo/l_ratio_poster/public/.*?jpg',re.S)
    obj3=re.compile(r'magnet:.*?"',re.S)
    r1=obj1.search(page_source)
    print(r1.group('name'))
    r2=obj2.search(page_source)
    print(r2.group())
    r3=obj3.search(page_source)
    print(r3.group())

if __name__=='__main__':
    # 待测试的网址
    url='https://ygdy8.com/html/gndy/jddy/20210915/61852.html'
      #  https://www.ygdy8.com/html/gndy/jddy/20211107/62013.html

    resp=get_source(url)
    # resp.encoding('gb2312')
    resp.encoding='gb2312'
    page_source=resp.text
    analyes_fa_page(page_source)


    # print(page_source)


 # 或 resp.encoding='gb2312' 指定字符集
    # print(resp)
    # 网页处理:若代码用utf-8,网页为gbk，则需要这样处理:
    # html= html.decode(“gbk”).encode(“utf-8”)
    # 封神・托塔天王 133