利用超级鹰打码平台,本项目测试了3种类型的验证码,包括图片验证码,点选验证码,滑块验证码...
利用超级鹰打码平台,本项目测试了3种类型的验证码,包括图片验证码,点选验证码,滑块验证码...
采用requests,aiohttp,httpx,selenium,pyppeteer等5种方式爬取电影网站,aiohttp在requests基础上实现了异步获取,httpx可以选择性爬取https1.0/2.0协议网站,selenium属于js渲染爬取,pyppeteer是selenium的异步法..
封IP是一种常见的网站反爬虫策略,其限制了一段时间内某个ip请求的次数,采用代理池技术可以实现每个请求都用不同的IP访问,如何应对IP的不稳定,指定某个请求重试机制,超时机制...
网站常用的反爬手段还有账号封锁,同一个账号一段时间请求次数达到阈值,便会被封锁,利用接码平台可以实现多个账号的连续爬取。此外,如果事先准备好了大量账号,可以可以利用账号池完成软解账号反爬。
部分网站的url构成中含有加密参数,这些参数的加密方法写在了javascript中,而js通常经过了压缩,混淆和加密; 本项目通过ajax断点,hook方法,playwright等方法模拟加密过程从而实现url正确构造
最近一年贡献:80 次
最长连续贡献:2 日
最近连续贡献:2 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。