(因个人精力有限,基本功能已具备,其他操作功能还待继续完善) 整个分布式基于springboot,zookeeper,redis,netty,mysql等基础开源框架实现。 1.springboot作为整个项目的管理容器, 2.zookeeper作为整个集群节点注册和发现, 3.redis用来作为集群缓存和工作空间实现, 由于redis支持rpush lpop队列操作,然后lpop,rpush 操作数据key,hset,hget操作实际存储数据来实现redis队列ack,数据实际处理完后再hdell数据 4.netty用来作为节点间通信, 5.mysql用存储持久化数据. 项目仅仅为一个可执行jar. 下载器:支持okhttp,phantomjs,chrome3种下载方式. 提供了登录,验证码识别接口, 实现了根据站点code切换代理Ip(基于redis实现的http代理管理队列) 解析: 支持普通cssQuery 抽取元素, 表格单条数据抽取,表格多条数据抽取,json抽取,正则抽取。 支持自定义解析结果。 抽取结果存储:支持数据库,http发送 ,文件等存储方式