代码拉取完成,页面将自动刷新
import requests
import re
from fake_useragent import UserAgent
def get_source(url):
ua=UserAgent()
headers={'User-Agent':ua.random}
resp=requests.get(url,headers=headers)
# print(resp.headers)
return resp
if __name__=='__main__':
url1='https://www.ygdy8.com/index1.htm' #阳光电影 网址
url2='https://movie.douban.com/'#豆瓣电影 网址
r1=get_source(url1)
# get_source(url2)
r1.encoding='gb2312'
# print(r1.content.decode('utf-8'))
# print(r1.content.decode('gb2312'))
print(r1.text)
# requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。
# 两者区别在于,content中间存的是字节码,而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。
# 直接输出content,会发现前面存在b'这样的标志,这是字节字符串的标志,而text是,没有前面的b,对于纯ascii码,这两个可以说一模一样,对于其他的文字,需要正确编码才能正常显示。
# 大部分情况建议使用.text,因为显示的是汉字,但有时会显示乱码,这时需要用.content.decode('utf-8'),中文常用utf-8和GBK,GB2312等。这样可以手工选择文字编码方式。
# 所以简而言之,.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。
# ————————————————
# 版权声明:本文为CSDN博主「王小波_Libo」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
# 原文链接:https://blog.csdn.net/qq_38900441/article/details/79946377
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。