博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Heritrix maven
阅读量:6163 次
发布时间:2019-06-21

本文共 1914 字,大约阅读时间需要 6 分钟。

hot3.png

Heritrix maven 博客分类: 搜索引擎,爬虫  

Heritrix是一个比较经典的开源爬虫,本人打算用它来做一些数据采集应用

网上关于heritrix系列的博文 大多是老版本的(1.14.4版本),Heritrix 3.1.0版本的文章则极其稀少

由于新的版本相对老版本改动比较大,所以本人不能循老版本的套路了

(Heritrix 3.1.0 版本引入spring容器管理,相对增强了对spring熟悉的开发人员的亲和性)

 首先介绍新的Heritrix 3.1.0 版本怎么在eclipse下搭建环境,以便于自己调试与开发

网上介绍在Eclipse中搭建Heritrix 3.1.0的文章总是讲的很复杂,无疑增加了开发人员对它的敬畏感,不利于Heritrix 3.1.0的普及

其实经过本人实践,哪有那么复杂呢

本人是通过maven来管理项目的,首先在eclipse下建立maven项目,然后在项目的pom.xml文件里面添加heritrix3.1.0的依赖文件

复制代码
org.archive.heritrix
heritrix-commons
3.1.0
compile
org.archive.heritrix
heritrix-modules
3.1.0
compile
org.archive.heritrix
heritrix-engine
3.1.0
compile
复制代码

其他相关的依赖会自动导入,不用我们来一个一个的手工添加了(其实前两个依赖都不用手动添加,heritrix-engine会自动关联)

至此,heritrix3.1.0在eclipse中搭建环境 完毕

那么,我们怎么启动这个应用呢,新建启动类,在main函数里面加入如下代码:

public static void main(String[] args) throws Exception {        //String[] args={"-a","admin:admin"};        new Heritrix().instanceMain(args);             }

在应用的Arguments参数里面配置"-a admin:admin"

然后在eclipse上点击运行 java Application,运行成功控制台会输出如下信息(我已经配置了一个任务,所以会出现“信息: added crawl job: myjob”)

然后在浏览器输入:https://localhost:8443,输入用户名及密码(用户名及密码均为admin),就可以看到Heritrix3.1.0的UI界面了
上面视图是我已经添加了一个采集任务的界面配置好Heritrix 3.1.0的eclipse环境后,就比较方便的调试它了,而且很方面的查看Heritrix 3.1.0源码

---------------------------------------------------------------------------

本系列Heritrix 3.1.0 源码解析系本人原创

转载请注明出处 博客园 刺猬的温驯

本文链接 http://www.cnblogs.com/chenying99/archive/2013/04/10/3011604.html

 

 

转载于:https://my.oschina.net/xiaominmin/blog/1599522

你可能感兴趣的文章
the assignment of reading paper
查看>>
android apk 逆向中常用工具一览
查看>>
MyEclipse 报错 Errors running builder 'JavaScript Validator' on project......
查看>>
Skip List——跳表,一个高效的索引技术
查看>>
Yii2单元测试初探
查看>>
五、字典
查看>>
前端js之JavaScript
查看>>
Log4J日志配置详解
查看>>
实验7 BindService模拟通信
查看>>
scanf
查看>>
Socket编程注意接收缓冲区大小
查看>>
SpringMVC初写(五)拦截器
查看>>
检测oracle数据库坏块的方法
查看>>
SQL server 安装教程
查看>>
Linux下ftp和ssh详解
查看>>
跨站脚本功攻击,xss,一个简单的例子让你知道什么是xss攻击
查看>>
js时间和时间戳之间如何转换(汇总)
查看>>
js插件---图片懒加载echo.js结合 Amaze UI ScrollSpy 使用
查看>>
java中string和int的相互转换
查看>>
P1666 前缀单词
查看>>