1.下载Nutch-1.6-src.tar.gz  http://www.linuxtourist.com/apache/nutch/1.6/

 将Nutch-1.6-src.tar.gz复制到usr/目录下

   sudo cp /home/franklin/Documents/apache-nutch-1.6-src.tar.gz /usr/

 并解压

   sudo tar -zxf apache-nutch-1.6-src.tar.gz

 改变apache-nutch-1.6的权限

   sudo chown hadoop:hadoop apache-nutch-1.6

2.使用ant对nutch进行编译

  ant的安装:

    下载 ant-1.9.0 http://ant.apache.org/bindownload.cgi

    将apache-ant-1.9.0-bin.tar.gz复制到usr下

      sudo cp /home/franklin/Documents/apache-ant-1.9.0-bin.tar.gz /usr/

    解压之

      sudo tar -zxf apache-ant-1.9.0-bin.tar.gz

    配置ant的环境变量

      sudo gedit /etc/profile

       加入如下内容

        export ANT_HOME=/usr/apache-ant-1.9.0

        在PATH后添加

         :$ANT_HOME/bin

    验证ant是否配置成功

      ant -version

      出现如下提示即配置成功

        

  使用ant对nutch进行编译

    进入apache-nutch-1.6.0目录下,运行ant命令,就会根据build.xml对nutch进行编译(需要等一段时间,因为要通过网络下载)

    

    编译成功 总共花了15分钟 编译完后 会在apache-nutch-1.6.0目录下看到一个runtime目录 进入该目录会发现一个local目录和

    一个deploy目录,一个是本地模式,一个是分布式模式。

3.本地模式下运行nutch的爬虫进行爬取

   进入runtime/local/conf下配置nutch-site.xml

    sudo gedit nutch-site.xml

    在configuration中加入如下内容:

       <property>

          <name>http.agent.name</name>

          <value>My Nutch Spider</value>

       </property>

   创建爬虫爬取的Url

     新建urls目录

       sudo mkdir urls

     在urls目录下新建seed.txt

       sudo touch seed.txt

       改变seed.txt的读写权限

        chmod 777 seed.txt

       写入爬取Url

        sudo echo http://nutch.apache.org/ > seed.txt

        

   设置爬取的规则

     进入apache-nutch-1.6.0/runtime/local/conf目录下

      sudo gedit regex-urlfilter.txt

      将这两行内容

      # accept anything else

      +.

      替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/

    运行ant重新编译一下

   开始爬取

     进入apache-nutch-1.6.0/runtime/local  运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5

      

    爬取的过程中出现错误:

      

      这是由于上一次运行爬取命令生成了一个不完整的segments/20130434113019造成的,到相应目录下将该文件夹删除即可

    爬取完毕:

      

    在输出结果的文件夹中可以看见:crawldb/ linkdb/ segments/

4.分布式模式下运行nutch爬虫进行爬取

  启动hadoop的所有节点

    bin/start-all.sh

  进入apache-nutch-1.6.0/conf下配置nutch-site.xml

    sudo gedit nutch-site.xml

    在configuration中加入如下内容:

       <property>

          <name>http.agent.name</name>

          <value>My Nutch Spider</value>

       </property>

  将爬取的url复制到hadoop分布式文件系统中

    

  设置爬取规则:

    进入apache-nutch-1.6.0/conf目录下

      sudo gedit regex-urlfilter.txt

      将这两行内容

      # accept anything else

      +.

      替换为 +^http://([a-z0-9]*\.)*nutch.apache.org/

    运行ant重新编译一下

  

  开始爬取

     进入apache-nutch-1.6.0/runtime/deploy  运行 bin/nutch crawl /data/urls/seed.txt -dir crawl -depth 3 -topN 5

     可以看到爬取任务被提交给hadoop的mapping和reducing

      

    通过50030端口可以看到jobtracker运行的状态

      

    运行完毕:

      

      

      可以看到总共提交了18个任务

    爬取完毕后可以通过50070查看hadoop的分布式文件系统

      

    点击Browse the filesystem:可以看到分布式文件系统下的文件

       

    进入该目录下可以看到爬取输出的内容

       

  至此所有配置测试完毕。

      

  

转载于:https://www.cnblogs.com/sirhuoshan/archive/2013/04/24/3040158.html

Nutch-1.6在Hadoop环境下的安装配置相关推荐

  1. macOS 环境下 Go 安装配置

    macOS 环境下 Go 安装配置 1.下载安装包 2.配置环境变量 1.下载安装包 大家尽量选择 官网 下载,根据自己系统版本和位数选择需要的包 2.配置环境变量 安装完成后,需要我们手动配置一下环 ...

  2. macosx php环境,MacOSX环境下MAMP安装配置PHP的开发环境

    本部分描述如何在 Mac 上安装 MAMP.将通过一个操作安装 Apache Web 服务器.MySQL 和phpMyAdmin,需要的朋友可以参考下 一.简单介绍: PHP 页需要通过 Web 服务 ...

  3. Linux环境下Redis安装配置步骤

    在LInux下安装Redis的步骤如下: 1.首先下载一个Redis安装包,官网下载地址为:https://redis.io/ 2.在Linux下解压redis: tar -zxvf redis-2. ...

  4. Linux环境下nginx安装配置--淘宝Tengine

    文章目录 前言 一.tengine是什么? 二.使用步骤 1.下载地址 2.解压 3.依赖安装 4.安装nginx 5.编译 6.启动 7.设置为系统服务 7.服务启动.停止.重启 总结 前言 随着公 ...

  5. DELF: DEep Local Features在windows10环境下的安装配置

    以图搜图模式的图像检索是CBIR(基于内容的图像检索)任务中最难的一块,传统的基于SIFT.SURF.ORB的方法主要基于点结构特征和统计模型.DELF是google基于CNN框架提出的一种图像点特征 ...

  6. Linux环境下Anaconda3安装配置pytorch

    目录 1 安装anaconda 2 配置conda环境 2.1 一些常用conda命令 2.2 安装pytorch 1 安装anaconda https://blog.csdn.net/tomatt7 ...

  7. Hadoop环境下用java代码实现hdfs远程文件的上传和下载

    Hadoop环境下用java代码实现hdfs远程文件的上传和下载 文章目录 Hadoop环境下用java代码实现hdfs远程文件的上传和下载 一.新建maven工程 二.文件的上传 三.文件的下载 四 ...

  8. mysql thread safe_Windows环境下完全手工配置Apache、MySQL和PHP(Thread Safe)

    happydagui:现在LAMP(Linux.Apache.MySQL.PHP/Perl/Python的简称)已经很流行了.在Windows下也有类似的,比如 WAMP(Apache, MySQL, ...

  9. Redis学习笔记~Redis在windows环境下的安装

    Redis是一个key-value的存储系统,它最大的特点就是可以将数据序列化到文件中. redis存储在服务器的内存或者文件中,它不是session,不是cookies,它只是个更安全,更稳定,更可 ...

  10. win10+python3.6+tensorflow-cpu+keras+Pycharm环境下的tensorflow配置方法

    在pytorch成功配置的基础上,也尝试着把tensorflow和keras安装了一下. Win 10 Anaconda3-5.2.0-Windows-x86_64.exe python3.6 ten ...

最新文章

  1. html5日期转long
  2. Clipboard类summary
  3. classin安卓手机安装条件_Classin在线学习平台安装指引——从这里打开知识的大门与北京四中网校名师面对面交流学习!...
  4. Swift 3 0 FMDB 初试
  5. SCVMM 2012 R2运维管理九之:添加非信任的Hyper-v主机和群集
  6. jsr 107_如何使用JSR107缓存注释
  7. 数据结构上机测试2-1:单链表操作A
  8. android d弹框顶部突出,TextView + Tablayout实现顶部菜单栏效果
  9. 太赞了:《Spring Framework 4.x 参考文档》最新中文版开放下载!
  10. linux testlink安装,Linux下安装testlink
  11. linux实现开机自启动脚本
  12. QT编程ARM下摄像头无法使用怎么办
  13. matlab 8点fft蝶形图,FFT快速傅里叶变换(蝶形算法)详解精要.ppt
  14. 1、PCB常用走线宽度
  15. 100个python算法超详细讲解:将真分数分解为埃及分数
  16. 计算机考研国家线好过,考研国家线真的很好过吗?
  17. 常用快递API(顺丰、EMS、申通、圆通等)及快递在线下单API分享
  18. 八大排序算法--堆排序
  19. 大数据在医疗领域的应用
  20. 海思联咏安霸视觉AI SOC横向对比,你心中的王者有没有动摇过。

热门文章

  1. Linux网络编程——tcp、udp迭代服务器
  2. Json文件转Map(二)之解析节点
  3. TCP Socket
  4. 【渝粤教育】国家开放大学2018年春季 0408-21T管理学基础 参考试题
  5. [渝粤教育] 西南科技大学 微机原理与应用 在线考试复习资料(2)
  6. SharePoint Designer 2010中的外部内容类型-SQL Server
  7. 浅议基因测序技术的代际:后记
  8. 【Android命令行】jarsigner参数详解
  9. [转]VS2008 集成openCV过程
  10. [转]VC工程文件说明