网站常用的反爬手段还有账号封锁,同一个账号一段时间请求次数达到阈值,便会被封锁,利用接码平台可以实现多个账号的连续爬取。此外,如果事先准备好了大量账号,可以可以利用账号池完成软解账号反爬。
部分网站的url构成中含有加密参数,这些参数的加密方法写在了javascript中,而js通常经过了压缩,混淆和加密; 本项目通过ajax断点,hook方法,playwright等方法模拟加密过程从而实现url正确构造
封IP是一种常见的网站反爬虫策略,其限制了一段时间内某个ip请求的次数,采用代理池技术可以实现每个请求都用不同的IP访问,如何应对IP的不稳定,指定某个请求重试机制,超时机制...
很多网站需要登录才能够访问到内容,而http协议是无状态的,客户端每一次请求都是不携带用户信息的,模拟登录使每次请求都含待用户信息,包括在requests中添加,在session中添加,在selenium中添加...
采用requests,aiohttp,httpx,selenium,pyppeteer等5种方式爬取电影网站,aiohttp在requests基础上实现了异步获取,httpx可以选择性爬取https1.0/2.0协议网站,selenium属于js渲染爬取,pyppeteer是selenium的异步法..