1 Star 0 Fork 0

nameless L/python_everyday

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
python爬虫笔记23.11.19.txt 3.00 KB
一键复制 编辑 原始数据 按行查看 历史
nameless L 提交于 2023-11-19 08:33 . 23.11.19更新
爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
爬虫在使用场景中的分类:
通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。
聚焦爬虫:是建立在通用爬虫的基础上,抓取的是页面中特定的局部数据。
增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。
反爬机制:门户网站,可以通过制定响应的策略或者技术手段,
防止爬虫程序进行网站数据的爬取
反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中
具备的反爬机制,从而可以获取门户网站的信息。
robots.txt协议:君子协议,规定了网站中哪些数据可以被爬虫爬取,
哪些数据不可以被爬取。如:https://www.taobao.com/robots.txt
HTTP协议:服务器和客户端进行数据交互的一种形式。
常用请求头信息:
user-agent请求载体的身份标识
connection请求完毕后,是断开连接还是保持连接
常用响应头信息:
content-type服务器响应回客户端的数据类型
HTTPS协议:安全的超文本传输协议(证书密钥加密)
加密方式:
对称密钥加密:客户端把密钥和密文一起发送给服务器,
可能会被拦截在客户端传输阶段
非对称密钥加密:服务器把密钥发送给客户端(公钥),
客户端按照加密方式把密文发送给服务器端(私钥),
在服务器发送密钥阶段可能会被拦截,更改密钥方式
证书密钥解密:加了一个证书认证机构,公钥先发给证书认证机构,
认证机构把公钥加上证书再发给客户端,客户端再按照加密方式发送私钥给服务器。
模块:urllib模块(老、麻烦,不推荐)、requests模块
python模块:
1、内置模块:如sys、time、math
2、第三方的开源模块:xlwings(专门控制excel)
3、自定义模块
模块的安装:
1、用pip命令安装模块,这种方法默认将模块安装在python安装
目录中的“site-packages”文件夹下
如:win+R-->cmd-->pip install xlwings
附:通过镜像服务器安装模块,-i是一个参数,用于指定pip命令下载模块
的服务器地址
pip install xlwings -i 镜像网址
requests模块
python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发送请求。
如何使用:
1、指定url
2、发起请求
3、获取响应数据
4、持久化存储
环境安装:
pip insatall requests
# import requests
import requests
if __name__ == '__main__':
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text
print(page_text)
with open('sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束')
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/nameless-l/python_everyday.git
git@gitee.com:nameless-l/python_everyday.git
nameless-l
python_everyday
python_everyday
master

搜索帮助