From 209f13a5fd49ae8719c9e31f4adaa32e6d555e61 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Tue, 9 Aug 2016 15:47:44 +0800 Subject: [PATCH 01/15] =?UTF-8?q?=E4=BF=AE=E6=94=B9=EF=BC=9A=20=E6=8A=80?= =?UTF-8?q?=E6=9C=AF=E6=96=87=E6=A1=A3=E8=AF=B4=E6=98=8E=EF=BC=8C?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 32 +++++++++++++++++++++++++------- 1 file changed, 25 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 2307b6b..da3ccda 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,25 @@ -# YayCrawler -基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: -1、完全分布式:由管理端(Admin)、调度端(Master)和多个Worker组成,各个组件通过Http协议通信。 -2、完全配置化:通过Admin端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封IP等问题。 -3、可扩展的任务队列:任务队列由Redis实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。 -4、可定义持久化方式:爬取结果中,属性数据默认持久化到MonogoDB,图片会被下载到文件服务器,当然您可以扩展更多的存储类型。 -5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。 + ** G-Crawler项目简介** + +项目目标 + 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力。 + +主要功能 + 基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: +1、完全分布式:由管理端(Admin)、调度端(Master)和多个Worker组成,各个组件通过Http协议通信。 +2、完全配置化:通过Admin端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封IP等问题。 +3、可扩展的任务队列:任务队列由Redis实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。 +4、可定义持久化方式:爬取结果中,属性数据默认持久化到MonogoDB,图片会被下载到文件服务器,当然您可以扩展更多的存储类型。 +5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。 + + +技术选型 +● 核心框架: webmagic Spring Framework +● 任务调度:Spring + Quartz +● 持久层框架:MyBatis 3.4 +● 数据库连接池:Alibaba Druid 1.0 +● 缓存框架:Redis +● 日志管理:SLF4J、Log4j2 +● 前端框架: Bootstrap + Jquary + +启动说明 + -- Gitee From 1ec17929940d70303e6e4c67c196a5e014f946dc Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Tue, 9 Aug 2016 16:01:17 +0800 Subject: [PATCH 02/15] Update README.md --- README.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index da3ccda..0688038 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ - ** G-Crawler项目简介** +G-Crawler 项目简介 项目目标 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力。 @@ -13,13 +13,14 @@ 技术选型 -● 核心框架: webmagic Spring Framework +● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz -● 持久层框架:MyBatis 3.4 +● 持久层框架:Spring jpa ● 数据库连接池:Alibaba Druid 1.0 -● 缓存框架:Redis +● 缓存框架:Redis ehcache ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary 启动说明 + -- Gitee From 5fb72edc4d88dcfa4d1757eaa05cf381a53be515 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 09:43:35 +0800 Subject: [PATCH 03/15] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 0688038..2b364ef 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,10 @@ G-Crawler 项目简介 + G-Crawler爬虫技术交流 559745472 欢迎加群讨论,快速启动!!! + + 项目目标 - 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力。 + 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力,爬虫框架里的一股清流@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ 主要功能 基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: @@ -23,4 +26,3 @@ G-Crawler 项目简介 启动说明 - -- Gitee From 5b63b9cd1be68d29a194fe8863cbecf75ba060ef Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 09:43:56 +0800 Subject: [PATCH 04/15] =?UTF-8?q?=E6=9B=B4=E6=96=B0=EF=BC=9A=E6=96=87?= =?UTF-8?q?=E6=A1=A3=E8=AF=B4=E6=98=8E?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 2b364ef..2e23d3d 100644 --- a/README.md +++ b/README.md @@ -4,7 +4,7 @@ G-Crawler 项目简介 项目目标 - 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力,爬虫框架里的一股清流@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ + 在力所能及的情况下,最大限度的提高 Web爬虫开发人员的生产力,爬虫框架里的一股清流 主要功能 基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: -- Gitee From f4186887ee1ab2c5f7c850a06171c303fb2a158a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 09:53:24 +0800 Subject: [PATCH 05/15] Update README.md --- README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/README.md b/README.md index 2e23d3d..044e4af 100644 --- a/README.md +++ b/README.md @@ -26,3 +26,13 @@ G-Crawler 项目简介 启动说明 + + + + +开发者交流群号 + +G-Crawler爬虫技术交流 559745472 + + + -- Gitee From e800fed50de52a2dbf302a8bc9e73a0bd7435aaa Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 09:54:05 +0800 Subject: [PATCH 06/15] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 044e4af..5a031de 100644 --- a/README.md +++ b/README.md @@ -19,7 +19,7 @@ G-Crawler 项目简介 ● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz ● 持久层框架:Spring jpa -● 数据库连接池:Alibaba Druid 1.0 +● 数据库连接池:Alibaba Druid ● 缓存框架:Redis ehcache ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary -- Gitee From 8c90ffc4c2da0edf4ad4d1fff5a4deed6d4d77ec Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 10:04:44 +0800 Subject: [PATCH 07/15] Update README.md --- README.md | 16 ++++++++++++---- 1 file changed, 12 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index 5a031de..1f74461 100644 --- a/README.md +++ b/README.md @@ -24,15 +24,23 @@ G-Crawler 项目简介 ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary -启动说明 +启动说明: + + (Linux & Windwos) + java -jar worker.war --spring.config.location=worker_local.properties + + +关闭说明: +(Windows) + for /f "tokens=1-5 delims= " %%a in ('"netstat -ano|findstr "^:8086""') do taskkill /f /pid %%e + +Docker镜像: + 加班制作中。。。。。 - 开发者交流群号 G-Crawler爬虫技术交流 559745472 - - -- Gitee From 84f1ac044e29e5a0302606c1692827851d13df84 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 13:50:01 +0800 Subject: [PATCH 08/15] Update README.md --- README.md | 17 ++++++++++++++--- 1 file changed, 14 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 1f74461..e6baee8 100644 --- a/README.md +++ b/README.md @@ -24,13 +24,24 @@ G-Crawler 项目简介 ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary + +开发环境配置: + + 1.安装JDK8 + 2.安装mysql数据库,用作存储解析规则等数据,需要创建一个“yayCrawler”的数据库实例,并执行quartz相关的数据库脚本:quartz.sql(见发布包或源码)。 + 3.安装redis + 4.安装mongoDB用于存放结果数据 + 5.安装ftp服务器软件ftpserver(可选,用于存放下载图片) + 启动说明: - + + 导入项目,maven install 安装 Admin,Worker,Master 模块。 然后生成的Jar拷贝到 crawler.worker / deploy 目录中,点击start.bat启动。 + (Linux & Windwos) java -jar worker.war --spring.config.location=worker_local.properties -关闭说明: +关闭命令: (Windows) for /f "tokens=1-5 delims= " %%a in ('"netstat -ano|findstr "^:8086""') do taskkill /f /pid %%e @@ -43,4 +54,4 @@ Docker镜像: 开发者交流群号 G-Crawler爬虫技术交流 559745472 - + \ No newline at end of file -- Gitee From bec061430e72dccfb85b1d2c7ecd300b4d0c26cb Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 13:52:48 +0800 Subject: [PATCH 09/15] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index e6baee8..a93cced 100644 --- a/README.md +++ b/README.md @@ -18,7 +18,7 @@ G-Crawler 项目简介 技术选型 ● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz -● 持久层框架:Spring jpa +● 持久层框架:Spring Jpa ● 数据库连接池:Alibaba Druid ● 缓存框架:Redis ehcache ● 日志管理:SLF4J、Log4j2 -- Gitee From 4f454e44b00b1f941af374d17b6215269ca1c226 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 14:00:06 +0800 Subject: [PATCH 10/15] Update README.md --- README.md | 18 +++++++++++++++--- 1 file changed, 15 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index a93cced..d8e2542 100644 --- a/README.md +++ b/README.md @@ -44,12 +44,24 @@ G-Crawler 项目简介 关闭命令: (Windows) for /f "tokens=1-5 delims= " %%a in ('"netstat -ano|findstr "^:8086""') do taskkill /f /pid %%e - -Docker镜像: - 加班制作中。。。。。 +各组件通信说明: + +一、Admin + Admin层主要负责页面抽取规则配置,页面Site配置,资源管理和任务发布 + +二、Master + 分布式爬虫的控制中心,接受Admin发布的任务,并分派任务给worker执行。 + 2.1、接收发布任务 + 2.2、接受Worker的注册 +三、Worker + 真正干事情的苦逼青年,接受Master分派的任务并执行,定时向Master汇报心跳 + + +Docker镜像: + 制作中。。。。。.。。。。。。。。。。。。。。 开发者交流群号 -- Gitee From 50b0e90be45049354c4bab74e1ed5cdf2bac351f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 14:21:31 +0800 Subject: [PATCH 11/15] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index d8e2542..3ffa370 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,4 @@ +![输入图片说明](http://git.oschina.net/uploads/images/2016/0810/142122_594505a2_302008.png "在这里输入图片标题") G-Crawler 项目简介 G-Crawler爬虫技术交流 559745472 欢迎加群讨论,快速启动!!! -- Gitee From b813ee6385ede1e8a42ac8361e9fe09dde30af2a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 14:22:17 +0800 Subject: [PATCH 12/15] Update README.md --- README.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 3ffa370..da7fbf9 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ -![输入图片说明](http://git.oschina.net/uploads/images/2016/0810/142122_594505a2_302008.png "在这里输入图片标题") + G-Crawler 项目简介 G-Crawler爬虫技术交流 559745472 欢迎加群讨论,快速启动!!! @@ -67,4 +67,7 @@ Docker镜像: 开发者交流群号 G-Crawler爬虫技术交流 559745472 + + +![输入图片说明](http://git.oschina.net/uploads/images/2016/0810/142122_594505a2_302008.png "在这里输入图片标题") \ No newline at end of file -- Gitee From 643bbf064de86313e53bfc0e4d258ce4fadc4df0 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 17:21:54 +0800 Subject: [PATCH 13/15] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index da7fbf9..cd91d50 100644 --- a/README.md +++ b/README.md @@ -36,7 +36,7 @@ G-Crawler 项目简介 启动说明: - 导入项目,maven install 安装 Admin,Worker,Master 模块。 然后生成的Jar拷贝到 crawler.worker / deploy 目录中,点击start.bat启动。 + 导入项目,maven install 安装 Admin,Worker,Master 模块。 然后生成的Jar拷贝到 crawler.worker / deploy 目录中,记住改配置文件里面的Redis,mysql mogodb 的IP ,点击start.bat启动。 (Linux & Windwos) java -jar worker.war --spring.config.location=worker_local.properties -- Gitee From 83633d783e9151934720ee3da240efa980a4a298 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Wed, 10 Aug 2016 17:33:54 +0800 Subject: [PATCH 14/15] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index cd91d50..c476999 100644 --- a/README.md +++ b/README.md @@ -20,8 +20,8 @@ G-Crawler 项目简介 ● 核心框架:Webmagic Spring boot ● 任务调度:Spring + Quartz ● 持久层框架:Spring Jpa -● 数据库连接池:Alibaba Druid -● 缓存框架:Redis ehcache +● 数据库&连接池:Alibaba Druid MongoDB MySql +● 缓存框架:Redis Ehcache ● 日志管理:SLF4J、Log4j2 ● 前端框架: Bootstrap + Jquary -- Gitee From 25426de5d5d5e5fa18acb299da887a78e4c21db9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=80=81=E8=A1=B2=E6=98=AF=E9=BB=91=E5=AE=A2?= <669539827@qq.com> Date: Thu, 11 Aug 2016 09:52:04 +0800 Subject: [PATCH 15/15] =?UTF-8?q?Update=20=E5=90=84=E7=BB=84=E4=BB=B6?= =?UTF-8?q?=E9=80=9A=E4=BF=A1=E4=BA=A4=E4=BA=92=E8=AF=B4=E6=98=8E.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...44\344\272\222\350\257\264\346\230\216.md" | 28 +++++++++---------- 1 file changed, 14 insertions(+), 14 deletions(-) diff --git "a/doc/\345\220\204\347\273\204\344\273\266\351\200\232\344\277\241\344\272\244\344\272\222\350\257\264\346\230\216.md" "b/doc/\345\220\204\347\273\204\344\273\266\351\200\232\344\277\241\344\272\244\344\272\222\350\257\264\346\230\216.md" index 1bb6bf9..466ff44 100644 --- "a/doc/\345\220\204\347\273\204\344\273\266\351\200\232\344\277\241\344\272\244\344\272\222\350\257\264\346\230\216.md" +++ "b/doc/\345\220\204\347\273\204\344\273\266\351\200\232\344\277\241\344\272\244\344\272\222\350\257\264\346\230\216.md" @@ -1,14 +1,14 @@ -# 一、Admin -Admin层主要负责页面抽取规则配置,页面Site配置,资源管理和任务发布 -# 二、Master -分布式爬虫的控制中心,接受Admin发布的任务,并分派任务给worker执行。 - -## 1、接收发布任务 - -## 2、接受Worker的注册 - - - - -# 三、Worker -真正干事情的苦逼青年,接受Master分派的任务并执行,定时向Master汇报心跳 \ No newline at end of file +# 一、Admin +Admin层主要负责页面抽取规则配置,页面Site配置,资源管理和任务发布 +# 二、Master +分布式爬虫的控制中心,接受Admin发布的任务,并分派任务给worker执行。 + +## 1、接收发布任务 + +## 2、接受Worker的注册 + + + + +# 三、Worker + 接受Master分派的任务并执行,定时向Master汇报心跳 \ No newline at end of file -- Gitee