代码拉取完成,页面将自动刷新
爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
爬虫在使用场景中的分类:
通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。
聚焦爬虫:是建立在通用爬虫的基础上,抓取的是页面中特定的局部数据。
增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。
反爬机制:门户网站,可以通过制定响应的策略或者技术手段,
防止爬虫程序进行网站数据的爬取
反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中
具备的反爬机制,从而可以获取门户网站的信息。
robots.txt协议:君子协议,规定了网站中哪些数据可以被爬虫爬取,
哪些数据不可以被爬取。如:https://www.taobao.com/robots.txt
HTTP协议:服务器和客户端进行数据交互的一种形式。
常用请求头信息:
user-agent请求载体的身份标识
connection请求完毕后,是断开连接还是保持连接
常用响应头信息:
content-type服务器响应回客户端的数据类型
HTTPS协议:安全的超文本传输协议(证书密钥加密)
加密方式:
对称密钥加密:客户端把密钥和密文一起发送给服务器,
可能会被拦截在客户端传输阶段
非对称密钥加密:服务器把密钥发送给客户端(公钥),
客户端按照加密方式把密文发送给服务器端(私钥),
在服务器发送密钥阶段可能会被拦截,更改密钥方式
证书密钥解密:加了一个证书认证机构,公钥先发给证书认证机构,
认证机构把公钥加上证书再发给客户端,客户端再按照加密方式发送私钥给服务器。
模块:urllib模块(老、麻烦,不推荐)、requests模块
python模块:
1、内置模块:如sys、time、math
2、第三方的开源模块:xlwings(专门控制excel)
3、自定义模块
模块的安装:
1、用pip命令安装模块,这种方法默认将模块安装在python安装
目录中的“site-packages”文件夹下
如:win+R-->cmd-->pip install xlwings
附:通过镜像服务器安装模块,-i是一个参数,用于指定pip命令下载模块
的服务器地址
pip install xlwings -i 镜像网址
requests模块
python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发送请求。
如何使用:
1、指定url
2、发起请求
3、获取响应数据
4、持久化存储
环境安装:
pip insatall requests
# import requests
import requests
if __name__ == '__main__':
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text
print(page_text)
with open('sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束')
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。