heritrix java_基于Java的Heritrix爬取网页

任务：重写一些定制扩展类来实现“网易手机频道”网页的抓取任务。

(转载请注明出处)

准备

环境：eclipse Mars.2 Release (4.5.2)

抓取工具：Heritrix1.14.4

前提条件：已经在eclipse中搭建好了Heritrix环境

Tomcat PluginV 插件的安装：

PS：安装TomcatPlugin真是太坑了，一定要注意版本的问题,目前最新版本为3.3.1(好像很长时间都没有更新了),本人亲测可以在eclipse4.5上面成功安装，之前由于用3.2 和3.3试了很多次都不成功，一度怀疑自己的智商，Hehe。详细匹配关系见官网：

Tomcat PluginV 插件官网: http://www.eclipsetotale.com/tomcatPlugin.html

安装步骤：

注：本人安装的是3.3.1版本，3.2与3.3的解压之后是一大堆东西，而3.3.1解压之后只有一个 Jar包，请注意。

1.下载插件，并解压

2.解压之后是一个Jar包，直接将其放在eclipse的plugins目录下，重新启动就可以看到下图了：

3.配置

安装完毕。

———————————————————————————————————————————

开始任务：

代码编写：

1.设计网页抓取的Extractor类

新建包：my.extractor

在该包中新建类文件：Mobile163Extractor，代码见文末

2.设计网页抓取的Frontier类扩展。

新建包：my.postprocessor

在该包中新建类文件：FrontierSchedulerFor163Mobile,代码见文末

3.文件配置：

在processor中添加所编写的扩展类的信息：

my.extractor.Mobile163Extractor|Mobile163Extractor

my.postprocessor.FrontierSchedulerFor163Mobile|FrontierSchedulerFor163Mobile

如下图所示：

4 .配置ClassPath

(该步骤非常关键，如果不做的话，将会导致在设置处理器链时没有Add/Change按钮及相应的下拉菜单)，过程如下：

右键Heritrix->Run As->Run configuratins…..->classpath->user Entries->Advanced->Add External Folder，找到modules的上一级目录conf将其加入即可。

配置完成后最好重新启动。

注：关于该步骤的原理分析，想要学习的话参照下面网址，几乎所有所有的帖子博客都在讲步骤，这个却是我见过分析并解决问题的，推荐大家看一下，这样会有更深入的理解，(虽然版面乱的一塌糊涂)：http://www.tc5u.com/java/1938960.htm

开始抓取任务流程：

0.环境测试：

1.设置种子Seeds：

即你要抓取的网页URL，越精准越好。

2.设置处理链

以下两个处理链需更改，其余的默认即可。

3.属性设置：

以下属性更改，其余的默认即可。

改为：

5.Start运行

6.运行状态分析

抓取结果分析：

可以看到设置的种子成功抓取：

方框中的6个文件记录了本次抓取结果中的相关数据：

(对应的目录是jobs下的任务)

下面对着6个文件做一下简单分析：

(1)Crack order：

主要记录的是本次抓取任务的相关设置

(2)Crack Report

抓取任务状态描述，以及抓取到的数据归类分析

(3)Crawl.log

Tip：如何将抓取到的网页的各种镜像设定存储到磁盘上？

方法：在设置处理器链的时候，有一个Writer，将其设定为：

org.rachive.craweler.prefetch.Preselector,这样一来将会用镜像Mirror的方式来存储抓取结果，抓取任务结束后，可以看到好多“分类文件包”。

(PS：之前没有注意到这个问题)

下一节将会对Heritrix的架构，原理做以简单的分析、介绍

heritrix java_基于Java的Heritrix爬取网页相关推荐

大众点评爬虫 java_用JAVA制作一个爬取商品信息的爬虫（爬取大众点评）
很多企业要求利用爬虫去爬取商品信息,一般的开发模型如下: for i=1;i<=最大页号;i++ 列表页面url=商品列表页面url+?page=i(页号) 列表页面=爬取(列表页面url) 商 ...
【Java爬虫】爬取网页中的内容，提取其中文字
挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...
java爬虫-简单爬取网页图片
刚刚接触到"爬虫"这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语 ...
java实现专门爬取网页图片的软件
发现我的不足: 1.对awt和swing的使用十分的差劲,时不时就要查一下博客... 可以做一个专门爬取网页图片的软件,功能已经实现了,就UI对应的设计一下就好了. 做完了..虽然有很大的局限,但是功 ...
爬虫基础练习: 基于 java + Jsoup + xpath 爬取51job网站
最基本的网页爬虫练习爬取51jb网站,并将数据写入Excel中需要导入jsoup包和POI相关包 JSoup简介 jsoup是一款Java的HTML解析器,主要用来对HTML解析, 可通过DOM, ...
基于java使用jsoup爬取网站投票数据的demo
想爬取一个投票网站的实时数据获取姓名和票数查看网站源码(这里只展示一部分) <table border="0" cellpadding="0" cel ...
HTTP编程(Java爬虫-简单爬取网页数据）
HTTP协议简介 HTTP 是 HyperText Transfer Protocol 的缩写,翻译为超文本传输协议,它是基于 TCP 协议之上的一种请求-响应协议. HTTP请求格式是固定的,由HT ...
python java 爬数据_如何用java爬虫爬取网页上的数据
当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...
Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...

heritrix java_基于Java的Heritrix爬取网页

heritrix java_基于Java的Heritrix爬取网页相关推荐

最新文章

热门文章