Nutch-1.6在Hadoop环境下的安装配置

1.下载Nutch-1.6-src.tar.gz http://www.linuxtourist.com/apache/nutch/1.6/

　将Nutch-1.6-src.tar.gz复制到usr/目录下

　　　sudo cp /home/franklin/Documents/apache-nutch-1.6-src.tar.gz /usr/

　并解压

　　　sudo tar -zxf apache-nutch-1.6-src.tar.gz

　改变apache-nutch-1.6的权限

　　　sudo chown hadoop:hadoop apache-nutch-1.6

2.使用ant对nutch进行编译

　　ant的安装:

　　　　下载 ant-1.9.0 http://ant.apache.org/bindownload.cgi

　　　　将apache-ant-1.9.0-bin.tar.gz复制到usr下

　　　　　　sudo cp /home/franklin/Documents/apache-ant-1.9.0-bin.tar.gz /usr/

　　　　解压之

　　　　　　sudo tar -zxf apache-ant-1.9.0-bin.tar.gz

　　　　配置ant的环境变量

　　　　　　sudo gedit /etc/profile

　　　　　加入如下内容

　　　　　　　　export ANT_HOME=/usr/apache-ant-1.9.0

　　　　　　　　在PATH后添加

　　　　　　　　　:$ANT_HOME/bin

　　　　验证ant是否配置成功

　　　　　　ant -version

　　　　　　出现如下提示即配置成功

　　使用ant对nutch进行编译

　　　　进入apache-nutch-1.6.0目录下,运行ant命令,就会根据build.xml对nutch进行编译（需要等一段时间，因为要通过网络下载）

　　　　编译成功总共花了15分钟编译完后会在apache-nutch-1.6.0目录下看到一个runtime目录进入该目录会发现一个local目录和

　　　　一个deploy目录，一个是本地模式，一个是分布式模式。

3.本地模式下运行nutch的爬虫进行爬取

　　　进入runtime/local/conf下配置nutch-site.xml

　　　　sudo gedit nutch-site.xml

　　　　在configuration中加入如下内容：

　　　　　　　　　　<name>http.agent.name</name>

　　　　　　　　　　<value>My Nutch Spider</value>

　　　　　　　</property>

　　　创建爬虫爬取的Url

　　　　　新建urls目录

　　　　　　　sudo mkdir urls

　　　　　在urls目录下新建seed.txt

　　　　　　　sudo touch seed.txt

　　　　　　　改变seed.txt的读写权限

　　　　　　　　chmod 777 seed.txt

　　　　　　　写入爬取Url

　　　　　　　　sudo echo http://nutch.apache.org/ > seed.txt

　　　设置爬取的规则

　　　　　进入apache-nutch-1.6.0/runtime/local/conf目录下

　　　　　　sudo gedit regex-urlfilter.txt

　　　　　　将这两行内容

　　　　　　# accept anything else

　　　　　　替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/

　　　　运行ant重新编译一下

　　　开始爬取

　　　　　进入apache-nutch-1.6.0/runtime/local 运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5

　　　　爬取的过程中出现错误：

　　　　　这是由于上一次运行爬取命令生成了一个不完整的segments/20130434113019造成的，到相应目录下将该文件夹删除即可

　　　　爬取完毕：

　　　　在输出结果的文件夹中可以看见：crawldb/ linkdb/ segments/

4.分布式模式下运行nutch爬虫进行爬取

　　启动hadoop的所有节点

　　　　bin/start-all.sh

　　进入apache-nutch-1.6.0/conf下配置nutch-site.xml

　　　　sudo gedit nutch-site.xml

　　　　在configuration中加入如下内容：

　　　　　　　　　　<name>http.agent.name</name>

　　　　　　　　　　<value>My Nutch Spider</value>

　　　　　　　</property>

　　将爬取的url复制到hadoop分布式文件系统中

　　设置爬取规则:

　　　　进入apache-nutch-1.6.0/conf目录下

　　　　　　sudo gedit regex-urlfilter.txt

　　　　　　将这两行内容

　　　　　　# accept anything else

　　　　　　替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/

　　　　运行ant重新编译一下

　　开始爬取

　　　　　进入apache-nutch-1.6.0/runtime/deploy 运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5

　　　　　可以看到爬取任务被提交给hadoop的mapping和reducing

　　　　通过50030端口可以看到jobtracker运行的状态

　　　　运行完毕：

　　　　　　可以看到总共提交了18个任务

　　　　爬取完毕后可以通过50070查看hadoop的分布式文件系统

　　　　点击Browse the filesystem：可以看到分布式文件系统下的文件

　　　　进入该目录下可以看到爬取输出的内容

　　至此所有配置测试完毕。

转载于:https://www.cnblogs.com/sirhuoshan/archive/2013/04/24/3040158.html

Nutch-1.6在Hadoop环境下的安装配置相关推荐

macOS 环境下 Go 安装配置
macOS 环境下 Go 安装配置 1.下载安装包 2.配置环境变量 1.下载安装包大家尽量选择官网下载,根据自己系统版本和位数选择需要的包 2.配置环境变量安装完成后,需要我们手动配置一下环 ...
macosx php环境,MacOSX环境下MAMP安装配置PHP的开发环境
本部分描述如何在 Mac 上安装 MAMP.将通过一个操作安装 Apache Web 服务器.MySQL 和phpMyAdmin,需要的朋友可以参考下一.简单介绍: PHP 页需要通过 Web 服务 ...
Linux环境下Redis安装配置步骤
在LInux下安装Redis的步骤如下: 1.首先下载一个Redis安装包,官网下载地址为:https://redis.io/ 2.在Linux下解压redis: tar -zxvf redis-2. ...
Linux环境下nginx安装配置--淘宝Tengine
文章目录前言一.tengine是什么? 二.使用步骤 1.下载地址 2.解压 3.依赖安装 4.安装nginx 5.编译 6.启动 7.设置为系统服务 7.服务启动.停止.重启总结前言随着公 ...
DELF: DEep Local Features在windows10环境下的安装配置
以图搜图模式的图像检索是CBIR(基于内容的图像检索)任务中最难的一块,传统的基于SIFT.SURF.ORB的方法主要基于点结构特征和统计模型.DELF是google基于CNN框架提出的一种图像点特征 ...
Linux环境下Anaconda3安装配置pytorch
目录 1 安装anaconda 2 配置conda环境 2.1 一些常用conda命令 2.2 安装pytorch 1 安装anaconda https://blog.csdn.net/tomatt7 ...
Hadoop环境下用java代码实现hdfs远程文件的上传和下载
Hadoop环境下用java代码实现hdfs远程文件的上传和下载文章目录 Hadoop环境下用java代码实现hdfs远程文件的上传和下载一.新建maven工程二.文件的上传三.文件的下载四 ...
mysql thread safe_Windows环境下完全手工配置Apache、MySQL和PHP（Thread Safe）
happydagui:现在LAMP(Linux.Apache.MySQL.PHP/Perl/Python的简称)已经很流行了.在Windows下也有类似的,比如 WAMP(Apache, MySQL, ...
Redis学习笔记~Redis在windows环境下的安装
Redis是一个key-value的存储系统,它最大的特点就是可以将数据序列化到文件中. redis存储在服务器的内存或者文件中,它不是session,不是cookies,它只是个更安全,更稳定,更可 ...
win10+python3.6+tensorflow-cpu+keras+Pycharm环境下的tensorflow配置方法
在pytorch成功配置的基础上,也尝试着把tensorflow和keras安装了一下. Win 10 Anaconda3-5.2.0-Windows-x86_64.exe python3.6 ten ...

Nutch-1.6在Hadoop环境下的安装配置

Nutch-1.6在Hadoop环境下的安装配置相关推荐

最新文章

热门文章