Eclipse中配置Heritrix的方法图文教程

作者：专题点击：91次评论：0次标签： Eclipse

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。不过Heritrix在Eclipse中的应该如何配置、运行呢？下面东坡小编就给大家说说Eclipse中配置Heritrix的方法图文教程。

在 Eclipse 中的配置
首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。
1. 导入类库
Heritrix 所用到的工具类库都在 heritrix-1.14.4-src\lib 目录下，需要将其导入 MyHeritrix 工程。
1）将 heritrix-1.14.4-src 下的 lib 文件夹拷贝到 MyHeritrix 项目根目录；
2）在 MyHeritrix 工程上右键单击选择“Build Path -> Configure Build Path …”，然后选择 Library 选项卡，单击“Add JARs …”，如图 1 所示。
图 1. 导入类库 - 导入前

3）在弹出的“JAR Selection”对话框中选择 MyHeritrix 工程 lib 文件夹下所有的 jar 文件，然后点击 OK 按钮。如图 2 所示。
图 2. 选择类库

设置完成后如图 3 所示：
图 3. 导入类库 - 导入后

2. 拷贝源代码
1）将 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三个文件夹拷贝进 MyHeritrix 工程的 src 下。这三个文件夹包含了运行 Heritrix 所必须的核心源代码；
2）将 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷贝到 MyHeritrix\src\org\archive\util 中。该文件是一个顶级域名列表，在 Heritrix 启动时会被读取；
3）将 heritrix-1.14.4-src\src 下 conf 文件夹拷贝至 Heritrix 工程根目录。它包含了 Heritrix 运行所需的配置文件；
4）将 heritrix-1.14.4-src\src 中的 webapps 文件夹拷贝至 Heritrix 工程根目录。该文件夹是用来提供 servlet 引擎的，包含了 Heritrix 的 web UI 文件。需要注意的是它不包含帮助文档，如果想使用帮助，可以将 heritrix-1.14.4.zip\docs 中的 articles 文件夹拷贝到 MyHeritrix\webapps\admin\docs（需新建 docs 文件夹）下。或直接用 heritrix-1.14.4.zip 的 webapps 文件夹替换 heritrix-1.14.4-src\src 中的 webapps 文件夹，缺点是这个是打包好的 .war 文件，无法修改源代码。
拷贝完毕后的 MyHeritrix 工程目录层次如图 4 所示。这里运行 Heritrix 所需的源代码等已经准备完备，下面需要修改配置文件并添加运行参数。
图 4. MyHeritrix 工程的目录层次

3. 修改配置文件
conf 文件夹是用来提供配置文件的，里面包含了一个很重要的文件：heritrix.properties。heritrix.properties 中配置了大量与 Heritrix 运行息息相关的参数，这些参数的配置决定了 Heritrix 运行时的一些默认工具类、Web UI 的启动参数，以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时，只需要修改该文件，为其加入 Web UI 的用户名和密码。如图 5 所示，设置 heritrix.cmdline.admin = admin:admin，“admin:admin”分别为用户名和密码。然后设置版本参数为 1.14.4。
图 5. 设置登陆用户名和密码

4. 配置运行文件
在 MyHeritrix 工程上右键单击选择“Run As -> Run Configurations”，选择 Java Application, 确保 Main 选项卡中的 Project 和 Main class 选项内容正确，如图 6 所示。其中的 Name 参数可以设置为任何方便识别的名字。
图 6. 配置运行文件—设置工程和类

然后在 Classpath 页选择 UserEntries 选项，此时右边的 Advanced 按钮处于激活状态，点击它，在弹出的对话框中选择“Add Folders”，然后选择 MyHeritrix 工程下的 conf 文件夹。如图 7 所示。
图 7. 添加配置文件

至此我们的 MyHeritrix 工程已经可以运行起来了。下面我们来看看如何启动 Heritrix 并设置一个具体的抓取任务。
5.创建网页抓取任务
找到 org.archive.crawler 包中的 Heritrix.java 文件，它是 Heritrix 爬虫启动的入口，右键单击选择“Run As Java Application”，如果配置正确，会在控制台输出如图 8 所示的启动信息。
图 8. 运行成功时控制台输出

在浏览器中输入 http://localhost:8080，会打开如图 9 所示的 Web UI 登录界面。

输入之前设置的用户名 / 密码：admin/admin，进入到 Heritrix 的管理界面，如图 10 所示。因为我们还没有创建抓取任务，所以 Jobs 显示为 0。
图 10. Heritrix 控制台

Heritrix 使用 Web 用户界面来启动、设置爬行参数并监控爬行，简单直观，易于管理。下面我们以北京林业大学首页 (http://www.bjfu.edu.cn/) 为种子站点来创建一个抓取实例。
在 Jobs 页面创建一个新的抓取任务，如图 11 所示，可以创建四种任务类型。
图 11. 创建抓取任务

Based on existing job：以一个已经有的抓取任务为模板生成新的抓取任务。
Based on a recovery：在以前的某个任务中，可能设置过一些状态点，新的任务将从这个设置的状态点开始。
Based on a profile：专门为不同的任务设置了一些模板，新建的任务将按照模板来生成。
With defaults：这个最简单，表示按默认的配置来生成一个任务。
这里我们选择“With defaults”，然后输入任务相关信息，如图 12 所示。
图 12. 创建抓取任务“BJFU”

注意图 11 中下方的按钮，通过这些按钮可以对抓取工作进行详细的设置，这里我们只做一些必须的设置。
首先点击“Modules”按钮，在相应的页面为此次任务设置各个处理模块，一共有七项可配置的内容，这里我们只设置 Crawl Scope 和 Writers 两项，下面简要介绍各项的意义。
1）Select Crawl Scope：Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制，选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.scope.BroadScope，并单击右边的 Change 按钮保存设置状态。
2）Select URI Frontier：Frontier 是一个 URL 的处理器，它决定下一个被处理的 URL 是什么。同时，它还会将经由处理器链解析出来的 URL 加入到等待处理的队列中去。这里我们使用默认值。
3）Select Pre Processors：这个队列的处理器是用来对抓取时的一些先决条件进行判断。比如判断 robot.txt 信息等，它是整个处理器链的入口。这里我们使用默认值。
4）Select Fetchers：这个参数用于解析网络传输协议，比如解析 DNS、HTTP 或 FTP 等。这里我们使用默认值。
5）Select Extractors：主要是用于解析当前服务器返回的内容，取出页面中的 URL，等待下次继续抓取。这里我们使用默认值。
6）Select Writers：它主要用于设定将所抓取到的信息以何种形式写入磁盘。一种是采用压缩的方式（Arc），还有一种是镜像方式（Mirror）。这里我们选择简单直观的镜像方式：org.archive.crawler.writer.MirrorWriterProcessor。
7）Select Post Processors：这个参数主要用于抓取解析过程结束后的扫尾工作，比如将 Extrator 解析出来的 URL 有条件地加入到待处理的队列中去。这里我们使用默认值。
设置完毕后的效果如图 13：

图 13. 设置 Modules
设置完“Modules”后，点击“Settings”按钮，这里只需要设置 user-agent 和 from，其中：
“@VERSION@”字符串需要被替换成 Heritrix 的版本信息。
“PROJECT_URL_HERE”可以被替换成任何一个完整的 URL 地址。
“from”属性中不需要设置真实的 E-mail 地址，只要是格式正确的邮件地址就可以了。
对于各项参数的解释，可以点击参数前的问号查看。本次任务设置如图 14 所示。
图 14. 设置 Settings

完成上述设置后点击“Submit job”链接，然后回到 console 控制台，可以看到我们刚刚创建的任务处于 pending 状态，如图 15 所示。
图 15. 启动任务

点击“Start”启动任务，刷新一下即可看到抓取进度以及相关参数。同时可以暂停或终止抓取过程，如图 16 所示。需要注意的是，进度条的百分比数量并不是准确的，这个百分比是实际上已经处理的链接数和总共分析出的链接数的比值。随着抓取工作不断进行，这个百分比的数字也在不断变化。
图 16. 开始抓取

同时，在 MyHeritrix 工程目录下自动生成“jobs”文件夹，包含本次抓取任务。抓取下来网页以镜像方式存放，也就是将 URL 地址按“/”进行切分，进而按切分出来的层次存储。如图 17 所示。
图 17. 抓取到的网页

从图 17 也可以看出，因为我们选择了 BroadScope 的抓取范围，爬虫会抓取所有遇到的 URL，这样会造成 URL 队列无限制膨胀，无法终止，只能强行终止任务。尽管 Heritrix 也提供了一些抓取范围控制的类，但是根据实际测试经验，如果想要完全实现自己的抓取逻辑，仅仅靠 Heritrix 提供的抓取控制是不够的，只能修改扩展源代码。

MyEclipse软件合集
c++编译器软件大全
安卓开发工具
java开发工具

: (57)MyEclipse软件合集; java开发程序MyEclipse是在eclipse的基础上加上了自己的插件，可以帮助企业集成更强大的开发环境，同时也是JavaEE的集成开发环境，东坡这里将所有MyEclipse软件整理了一个合集分享给大家，有破解版，有相关插件，还有注册机等，需要的可以自己选择下载!
...更多>>

下载
myeclipse10中文破解版10.7.1 官方
04-11 / 902.0M
推荐理由：很多用户在下载安装myeclipse10发现软件的界面全部都是英文的，为了让不懂英文的用户也能够顺利的使用软件，
下载
MyEclipse6.0破解版简体中文免费版
04-11 / 444.6M
推荐理由：MyEclipse6.0是对EclipseIDE的扩展，利用它我们可以在数据库和JavaEE的开发、发布以及应用程序服务器的整合
下载
myeclipse2014破解版官方中文版【3
04-12 / 1.16G
推荐理由：作为一款非常好用的Java和J2EE的开发平台myeclipse拥有非常多的强大功能，东坡为大家提供了myeclipse2014破
下载
myeclipse10汉化补丁汉化插件【附带
04-11 / 3M
推荐理由：尝试了几次myeclipse10中文包的安装以后小编终于将myeclipse10成功汉化，如果是完全没有接触过myeclipse10的
下载
MyEclipse 2015 Stable 2.0完美汉化
04-14 / 1.35G
推荐理由：在大手眼里，MyEclipse历代版本的破解都不是什么难事儿，但是，更多的是小白用户，甚至于跟着网上的教程都破
下载
myeclipse 8.5 简体中文完美破解版
04-07 / 832M
推荐理由：MyEclipse是一个十分优秀的用于开发Java,J2EE的Eclipse插件集合，MyEclipse的功能非常强大，支持也十分广泛

: (6)c++编译器软件大全; ‍c++编译器是现在学习以及需要c++编程的朋友都是离不开一款不错的c++编译器的，那么你想知道现在最好使用的c++编译器是哪些以及适合c++编译器的都是哪些软件吗？下面是小编精心的给有需要使用到c++编译器的朋友挑选的一些网络上评价比较好的c++编译器，大家赶快来挑选一下吧！
...更多>>

下载
Visual Studio 2017 15.5 正式版中
12-05 / 2.00G
推荐理由：VisualStudio2017年最后一个版本全新上线以及更新，修复了一些bug问题，同时也是对软件的性能进行了很大的改
下载
GCC 7.1编译器(GNU编译器套裝)7.1.
05-04 / 30.7M
推荐理由：为了庆祝GCC30周年，JakubJelinek发布了30年以来的首个Beta版本GCC7.17.1，它是面向GNU系统开发打造的开源的
下载
dev c++下载(DEV-C++)5.9.2 多语安
06-03 / 81.8M
推荐理由：Dev-C++最贴近C++标准，支持单文件编译，采用GCC编译器，在Windows环境下可能没有Cl(微软的编译器)快。比较
下载
VC++6.0稳定版win10版绿色免安装【
12-28 / 79.7M
推荐理由：很多win10的用户使用VC++6.0时都提示不兼容，安装也安装不上，东坡这里带来VC++6.0的绿色稳定版，已亲测win
下载
Microsoft Visual C++2017绿色免费
05-24 / 271.3M
推荐理由：MicrosoftVisualC++2017是一款非常好用的编程工具，给大家提供最新的2017版本下载，相信很多用户都用过这款
下载
Microsoft Visual C++ 2013运行库
10-20 / 48.4M
推荐理由：VC运行库是系统运行库里很重要的一个，如果没有它的支持，很多软件都运行不了，MicrosoftVisualC++2013是最

: (14)安卓开发工具; 安卓开发软件以及游戏在现在是非常的热门的行业的，那么想更好的开发出各种安卓应用以及游戏，就需要有一些不错的安卓开发工具软件来帮助你了！现在有需要下载一些安卓开发环境搭建以及安卓开发视频教程的朋友就可以来本站这里瞧瞧看看，有哪些是你现在需要使用到的！‍
...更多>>

下载
iTestin(自动化APP测试工具)4.2.4
08-13 / 90.6M
推荐理由：iTestin是一款自动化APP测试工具，iTestin基于Windows平台，为Android和iOS设备提供黑盒测试的自动化工具，
下载
Android Studio 下载2017 最新更新
10-19 / 1.80G
推荐理由：AndroidStudio开发工具是一款基于app开发的软件，此版本软件已经非常稳定了，不会出现各种bug，此软件相比E
下载
微软PowerApps1.0官方绿色版
05-09 / 21.8M
推荐理由：PowerApps是一款SaaS产品，通过类似Office365的环境，用户可以轻易地将各种已有的多种云端服务和企业内部数
下载
百宝云开发工具1.003 官网破解vip版
01-06 / 4.7M
推荐理由：百宝云开发工具主要是针对云服务定制的一款开发平台工具，不需要繁复的操作，只需要懂简单的百宝云脚本、服
下载
融云Android SDK2.3.3 全能开发版
10-21 / 5.5M
推荐理由：融云AndroidSDK，0成本投入，无缝融合，快速集成，服务稳定，提供多平台SDK及API，只需几行代码，即可实现丰
下载
安卓开发环境(Android Studio) Win
06-03 / 361.2M
推荐理由：AndroidStudio是谷歌开发的一个全新的Android开发环境，该工具的开发环境和模式更加的丰富和便捷，能够支持

: (11)java开发工具; java开发工具是现在一些java工程师们都是需要使用到的开发工具，但是很多的java开发工具的功能都是不一样的，学习java的程度不一样，就会使用到不一样的java开发工具！想找到一些适合自己的水平的java开发工具，就可以来本站为你精心挑选的一些适合初学者以及大神级的java开发工具，总会有一款是适合你的！‍
...更多>>

下载
Myeclipse10.7.1破解版【附注册码】
09-27 / 852.9M
推荐理由：Myeclipse10.7.1是一款非常不错的程序开发软件，软件主要用于Java、JavaEE以及移动应用的开发。该软件功能十
下载
myeclipse 2017 ci8正式版最新版【
09-22 / 29.1M
推荐理由：myeclipse2017ci8是最新版本的myeclipse工具，新版修复了很多问题，在参数上面加了高级设置，可以自动检测，
下载
myeclipse9.0中文版官方简体中文版
05-24 / 911.7M
推荐理由：作为一款使用非常广泛的java开发平台，myeclipse的使用非常的广泛，但是因为没有官方中文版，导致很多新用户
下载
javasntm编程软件1.0 绿色版
09-08 / 16M
推荐理由：javasntm编程软件一款很不错的长须调试编程软件，这款软件操作简单，使用方便，拥有窗口探测、json解析、百
下载
java class反编译工具(Class反编译
08-15 / 838KB
推荐理由：对class文件进行加密混淆的类文件，一般情况下，我们是看不到其源代码的。这里为您提供的是javaclass反编
下载
Wijmo新一代JavaScript控件3.0 官网
03-21 / 144.7M
推荐理由：Wijmo是一款JavaScript控件拥有灵活的API，为用户提供便捷的操作体验，帮助程序员开发出精美的产品！欢迎来

Eclipse中配置Heritrix的方法图文教程

相关软件

相关文章

扩展知识

相关评论

阅读本文后您有什么感想? 已有 0 人给出评价!

文章推荐

最新文章

本类常用软件