Nutch-1.6在Hadoop环境下的安装配置
1.下载Nutch-1.6-src.tar.gz http://www.linuxtourist.com/apache/nutch/1.6/
将Nutch-1.6-src.tar.gz复制到usr/目录下
sudo cp /home/franklin/Documents/apache-nutch-1.6-src.tar.gz /usr/
并解压
sudo tar -zxf apache-nutch-1.6-src.tar.gz
改变apache-nutch-1.6的权限
sudo chown hadoop:hadoop apache-nutch-1.6
2.使用ant对nutch进行编译
ant的安装:
下载 ant-1.9.0 http://ant.apache.org/bindownload.cgi
将apache-ant-1.9.0-bin.tar.gz复制到usr下
sudo cp /home/franklin/Documents/apache-ant-1.9.0-bin.tar.gz /usr/
解压之
sudo tar -zxf apache-ant-1.9.0-bin.tar.gz
配置ant的环境变量
sudo gedit /etc/profile
加入如下内容
export ANT_HOME=/usr/apache-ant-1.9.0
在PATH后添加
:$ANT_HOME/bin
验证ant是否配置成功
ant -version
出现如下提示即配置成功
使用ant对nutch进行编译
进入apache-nutch-1.6.0目录下,运行ant命令,就会根据build.xml对nutch进行编译(需要等一段时间,因为要通过网络下载)
编译成功 总共花了15分钟 编译完后 会在apache-nutch-1.6.0目录下看到一个runtime目录 进入该目录会发现一个local目录和
一个deploy目录,一个是本地模式,一个是分布式模式。
3.本地模式下运行nutch的爬虫进行爬取
进入runtime/local/conf下配置nutch-site.xml
sudo gedit nutch-site.xml
在configuration中加入如下内容:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
创建爬虫爬取的Url
新建urls目录
sudo mkdir urls
在urls目录下新建seed.txt
sudo touch seed.txt
改变seed.txt的读写权限
chmod 777 seed.txt
写入爬取Url
sudo echo http://nutch.apache.org/ > seed.txt
设置爬取的规则
进入apache-nutch-1.6.0/runtime/local/conf目录下
sudo gedit regex-urlfilter.txt
将这两行内容
# accept anything else
+.
替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/
运行ant重新编译一下
开始爬取
进入apache-nutch-1.6.0/runtime/local 运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5
爬取的过程中出现错误:
这是由于上一次运行爬取命令生成了一个不完整的segments/20130434113019造成的,到相应目录下将该文件夹删除即可
爬取完毕:
在输出结果的文件夹中可以看见:crawldb/ linkdb/ segments/
4.分布式模式下运行nutch爬虫进行爬取
启动hadoop的所有节点
bin/start-all.sh
进入apache-nutch-1.6.0/conf下配置nutch-site.xml
sudo gedit nutch-site.xml
在configuration中加入如下内容:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
将爬取的url复制到hadoop分布式文件系统中
设置爬取规则:
进入apache-nutch-1.6.0/conf目录下
sudo gedit regex-urlfilter.txt
将这两行内容
# accept anything else
+.
替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/
运行ant重新编译一下
开始爬取
进入apache-nutch-1.6.0/runtime/deploy 运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5
可以看到爬取任务被提交给hadoop的mapping和reducing
通过50030端口可以看到jobtracker运行的状态
运行完毕:
可以看到总共提交了18个任务
爬取完毕后可以通过50070查看hadoop的分布式文件系统
点击Browse the filesystem:可以看到分布式文件系统下的文件
进入该目录下可以看到爬取输出的内容
至此所有配置测试完毕。
转载于:https://www.cnblogs.com/sirhuoshan/archive/2013/04/24/3040158.html
Nutch-1.6在Hadoop环境下的安装配置相关推荐
- macOS 环境下 Go 安装配置
macOS 环境下 Go 安装配置 1.下载安装包 2.配置环境变量 1.下载安装包 大家尽量选择 官网 下载,根据自己系统版本和位数选择需要的包 2.配置环境变量 安装完成后,需要我们手动配置一下环 ...
- macosx php环境,MacOSX环境下MAMP安装配置PHP的开发环境
本部分描述如何在 Mac 上安装 MAMP.将通过一个操作安装 Apache Web 服务器.MySQL 和phpMyAdmin,需要的朋友可以参考下 一.简单介绍: PHP 页需要通过 Web 服务 ...
- Linux环境下Redis安装配置步骤
在LInux下安装Redis的步骤如下: 1.首先下载一个Redis安装包,官网下载地址为:https://redis.io/ 2.在Linux下解压redis: tar -zxvf redis-2. ...
- Linux环境下nginx安装配置--淘宝Tengine
文章目录 前言 一.tengine是什么? 二.使用步骤 1.下载地址 2.解压 3.依赖安装 4.安装nginx 5.编译 6.启动 7.设置为系统服务 7.服务启动.停止.重启 总结 前言 随着公 ...
- DELF: DEep Local Features在windows10环境下的安装配置
以图搜图模式的图像检索是CBIR(基于内容的图像检索)任务中最难的一块,传统的基于SIFT.SURF.ORB的方法主要基于点结构特征和统计模型.DELF是google基于CNN框架提出的一种图像点特征 ...
- Linux环境下Anaconda3安装配置pytorch
目录 1 安装anaconda 2 配置conda环境 2.1 一些常用conda命令 2.2 安装pytorch 1 安装anaconda https://blog.csdn.net/tomatt7 ...
- Hadoop环境下用java代码实现hdfs远程文件的上传和下载
Hadoop环境下用java代码实现hdfs远程文件的上传和下载 文章目录 Hadoop环境下用java代码实现hdfs远程文件的上传和下载 一.新建maven工程 二.文件的上传 三.文件的下载 四 ...
- mysql thread safe_Windows环境下完全手工配置Apache、MySQL和PHP(Thread Safe)
happydagui:现在LAMP(Linux.Apache.MySQL.PHP/Perl/Python的简称)已经很流行了.在Windows下也有类似的,比如 WAMP(Apache, MySQL, ...
- Redis学习笔记~Redis在windows环境下的安装
Redis是一个key-value的存储系统,它最大的特点就是可以将数据序列化到文件中. redis存储在服务器的内存或者文件中,它不是session,不是cookies,它只是个更安全,更稳定,更可 ...
- win10+python3.6+tensorflow-cpu+keras+Pycharm环境下的tensorflow配置方法
在pytorch成功配置的基础上,也尝试着把tensorflow和keras安装了一下. Win 10 Anaconda3-5.2.0-Windows-x86_64.exe python3.6 ten ...
最新文章
- html5日期转long
- Clipboard类summary
- classin安卓手机安装条件_Classin在线学习平台安装指引——从这里打开知识的大门与北京四中网校名师面对面交流学习!...
- Swift 3 0 FMDB 初试
- SCVMM 2012 R2运维管理九之:添加非信任的Hyper-v主机和群集
- jsr 107_如何使用JSR107缓存注释
- 数据结构上机测试2-1:单链表操作A
- android d弹框顶部突出,TextView + Tablayout实现顶部菜单栏效果
- 太赞了:《Spring Framework 4.x 参考文档》最新中文版开放下载!
- linux testlink安装,Linux下安装testlink
- linux实现开机自启动脚本
- QT编程ARM下摄像头无法使用怎么办
- matlab 8点fft蝶形图,FFT快速傅里叶变换(蝶形算法)详解精要.ppt
- 1、PCB常用走线宽度
- 100个python算法超详细讲解:将真分数分解为埃及分数
- 计算机考研国家线好过,考研国家线真的很好过吗?
- 常用快递API(顺丰、EMS、申通、圆通等)及快递在线下单API分享
- 八大排序算法--堆排序
- 大数据在医疗领域的应用
- 海思联咏安霸视觉AI SOC横向对比,你心中的王者有没有动摇过。
热门文章
- Linux网络编程——tcp、udp迭代服务器
- Json文件转Map(二)之解析节点
- TCP Socket
- 【渝粤教育】国家开放大学2018年春季 0408-21T管理学基础 参考试题
- [渝粤教育] 西南科技大学 微机原理与应用 在线考试复习资料(2)
- SharePoint Designer 2010中的外部内容类型-SQL Server
- 浅议基因测序技术的代际:后记
- 【Android命令行】jarsigner参数详解
- [转]VS2008 集成openCV过程
- [转]VC工程文件说明