python-test
/
requests-stud.py

import requests
import re
from fake_useragent import UserAgent

def get_source(url):
    ua=UserAgent()
    headers={'User-Agent':ua.random}
    resp=requests.get(url,headers=headers)
    # print(resp.headers)
    return resp

if __name__=='__main__':
    url1='https://www.ygdy8.com/index1.htm'  #阳光电影 网址
    url2='https://movie.douban.com/'#豆瓣电影 网址


    r1=get_source(url1)
    # get_source(url2)
    r1.encoding='gb2312'
    # print(r1.content.decode('utf-8'))
    # print(r1.content.decode('gb2312'))
    print(r1.text)

#     requests对象的get和post方法都会返回一个Response对象，这个对象里面存的是服务器返回的所有信息，包括响应头，响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。

# 两者区别在于，content中间存的是字节码，而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。

# 直接输出content，会发现前面存在b'这样的标志，这是字节字符串的标志，而text是，没有前面的b,对于纯ascii码，这两个可以说一模一样，对于其他的文字，需要正确编码才能正常显示。
# 大部分情况建议使用.text，因为显示的是汉字，但有时会显示乱码，这时需要用.content.decode('utf-8')，中文常用utf-8和GBK，GB2312等。这样可以手工选择文字编码方式。

# 所以简而言之，.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。
# ————————————————
# 版权声明：本文为CSDN博主「王小波_Libo」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
# 原文链接：https://blog.csdn.net/qq_38900441/article/details/79946377