仓库 - cthousand (cthousand)

1

0

2

cthousand/爬虫项目7 Scrapy

此项目中的目标网址具有登录验证+IP封锁+帐号封锁，3种反爬手段，利用IP池，帐号池，和模拟登录技术，结合scapy成功实现大规模数据爬取。

Python

最近更新：2年多前

1

0

1

cthousand/爬虫项目5 账号封锁

网站常用的反爬手段还有账号封锁，同一个账号一段时间请求次数达到阈值，便会被封锁，利用接码平台可以实现多个账号的连续爬取。此外，如果事先准备好了大量账号，可以可以利用账号池完成软解账号反爬。

Python

最近更新：2年多前

1

0

1

cthousand/爬虫项目6 JS逆向之url参数模拟

部分网站的url构成中含有加密参数，这些参数的加密方法写在了javascript中，而js通常经过了压缩，混淆和加密；本项目通过ajax断点，hook方法，playwright等方法模拟加密过程从而实现url正确构造

Python

最近更新：2年多前

1

0

1

cthousand/爬虫项目4 IP封锁

封IP是一种常见的网站反爬虫策略，其限制了一段时间内某个ip请求的次数，采用代理池技术可以实现每个请求都用不同的IP访问，如何应对IP的不稳定，指定某个请求重试机制，超时机制...

Python

最近更新：2年多前

1

0

0

cthousand/爬虫项目3 模拟登录Cookie与JWT

很多网站需要登录才能够访问到内容，而http协议是无状态的，客户端每一次请求都是不携带用户信息的,模拟登录使每次请求都含待用户信息,包括在requests中添加，在session中添加，在selenium中添加...

最近更新：2年多前

1

3

2

cthousand/爬虫项目2 模拟验证码

利用超级鹰打码平台，本项目测试了3种类型的验证码，包括图片验证码，点选验证码，滑块验证码...

Python

最近更新：2年多前

1

2

2

cthousand/爬虫项目1 电影网站的花样爬取

采用requests,aiohttp,httpx,selenium,pyppeteer等5种方式爬取电影网站，aiohttp在requests基础上实现了异步获取，httpx可以选择性爬取https1.0/2.0协议网站，selenium属于js渲染爬取，pyppeteer是selenium的异步法..

Python

最近更新：2年多前

cthousand

1 0 2 cthousand/爬虫项目7 Scrapy

1 0 1 cthousand/爬虫项目5 账号封锁

1 0 1 cthousand/爬虫项目6 JS逆向之url参数模拟

1 0 1 cthousand/爬虫项目4 IP封锁

1 0 0 cthousand/爬虫项目3 模拟登录Cookie与JWT

1 3 2 cthousand/爬虫项目2 模拟验证码

1 2 2 cthousand/爬虫项目1 电影网站的花样爬取

搜索帮助

1

0

2

cthousand/爬虫项目7 Scrapy

1

0

1

cthousand/爬虫项目5 账号封锁

1

0

1

cthousand/爬虫项目6 JS逆向之url参数模拟

1

0

1

cthousand/爬虫项目4 IP封锁

1

0

0

cthousand/爬虫项目3 模拟登录Cookie与JWT

1

3

2

cthousand/爬虫项目2 模拟验证码

1

2

2

cthousand/爬虫项目1 电影网站的花样爬取