cthousand

@cthousand

cthousand 暂无简介

Python
江苏省/无锡市
所有 个人的 我参与的
Forks 暂停/关闭的

    cthousand/爬虫项目7 Scrapy

    此项目中的目标网址具有登录验证+IP封锁+帐号封锁,3种反爬手段,利用IP池,帐号池,和模拟登录技术,结合scapy成功实现大规模数据爬取。

    cthousand/爬虫项目5 账号封锁

    网站常用的反爬手段还有账号封锁,同一个账号一段时间请求次数达到阈值,便会被封锁,利用接码平台可以实现多个账号的连续爬取。此外,如果事先准备好了大量账号,可以可以利用账号池完成软解账号反爬。

    cthousand/爬虫项目6 JS逆向之url参数模拟

    部分网站的url构成中含有加密参数,这些参数的加密方法写在了javascript中,而js通常经过了压缩,混淆和加密; 本项目通过ajax断点,hook方法,playwright等方法模拟加密过程从而实现url正确构造

    cthousand/爬虫项目4 IP封锁

    封IP是一种常见的网站反爬虫策略,其限制了一段时间内某个ip请求的次数,采用代理池技术可以实现每个请求都用不同的IP访问,如何应对IP的不稳定,指定某个请求重试机制,超时机制...

    cthousand/爬虫项目3 模拟登录Cookie与JWT

    很多网站需要登录才能够访问到内容,而http协议是无状态的,客户端每一次请求都是不携带用户信息的,模拟登录使每次请求都含待用户信息,包括在requests中添加,在session中添加,在selenium中添加...

    cthousand/爬虫项目2 模拟验证码

    利用超级鹰打码平台,本项目测试了3种类型的验证码,包括图片验证码,点选验证码,滑块验证码...

    cthousand/爬虫项目1 电影网站的花样爬取

    采用requests,aiohttp,httpx,selenium,pyppeteer等5种方式爬取电影网站,aiohttp在requests基础上实现了异步获取,httpx可以选择性爬取https1.0/2.0协议网站,selenium属于js渲染爬取,pyppeteer是selenium的异步法..

搜索帮助