代码拉取完成,页面将自动刷新
同步操作将从 牛枫翔/NSDTN2207 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
# test01_requests.py 下载新浪首页所有的图片
# 1.下载新浪首页源代码的数据
# 2.使用正则匹配所有图片的url地址,保存到列表中
# 3.遍历列表,下载图片(/tmp/mypics)
# https://n.sinaimg.cn/default/transform/175/w105h70/
# 20221024/d42a-66e8740f6dcaf5ba21c0722dc4c74fc3.jpg
# (https|http)://[\w\./-]+\.(jpg|gif|jpeg|png)
# 字母 点 / 数字 - \w: 数字 字母 下划线
import requests, re, os
def download(url, fname): # 下载资源的函数
resp = requests.get(url)
with open(fname, mode="wb") as fw:
fw.write(resp.content)
# 获取所有图片url地址的列表 fname:文件路径 regex_str:正则字符串
def get_url(fname, regex_str):
pic_list = [] # 保存图片url地址的列表
regex = re.compile(regex_str) # 正则字符串编译成正则对象
with open(fname, mode="r") as fr:
for item in fr.readlines(): # item: 每一行数据
data = regex.search(item)
if data != None: # 匹配到了数据
pic_list.append(data.group())
return pic_list
if __name__ == '__main__':
re_str = "(https|http)://[\w\./-]+\.(jpg|gif|jpeg|png)"
fname, pic_dir = "/opt/sina.html", "/tmp/mypics"
if os.path.exists(fname) == False: # 文件不存在则下载
download("https://www.sina.com.cn/", fname)
if os.path.exists(pic_dir) == False: # 目录不存在则创建
os.mkdir(pic_dir)
data = get_url(fname, re_str)
for url in data: # 遍历列表,下载资源
download(url, f'{pic_dir}/{url.split("/")[-1]}')
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。