一:Recrawl 
nutch wiki上有现成的script,我们只需要拿来用用即可 
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03

把它放在nutch-0.8.1/bin/recrawl.sh

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/
  2. 10 1 5

wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是

Java代码  
  1. touch $tomcat_dir/WEB-INF/web.xml

让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。

二:Crawl more urls and merge 
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。

新增news.163.com

Java代码  
  1. mkdir url2
  2. echo http://news.163.com>url2/163

重新执行我们上面提到的crawl

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50

note: 
  这个时间会很长,如果你愿意可以用别的资讯很少的网站代替

合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。

Java代码  
  1. martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/

传递的两个参数分别是两次crawl的目录

修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录

Java代码  
  1. perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml

重新加载webapp

Java代码  
  1. touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml

以下是截图 
这个是163的 

这个是xici的 

Nutch 笔记(二):Craw more urls and Recrawl相关推荐

  1. nutch开发(二)

    nutch开发(二) 文章目录 nutch开发(二) 开发环境 1.爬取后生成的目录结构 crawldb linkdb segments 2.阅读TestCrawlDbMerger createCra ...

  2. 《How Tomcat Works》读书笔记(二)

    <How Tomcat Works>读书笔记(二) 这是<How Tomcat Works>第一二章的读书笔记.第一张主要写了一个静态资源处理的web服务器,第二章加了对ser ...

  3. qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)

    原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...

  4. oracle直查和call哪个更快,让oracle跑的更快1读书笔记二

    当前位置:我的异常网» 数据库 » <>读书笔记二 <>读书笔记二 www.myexceptions.net  网友分享于:2013-08-23  浏览:9次 <> ...

  5. 【Visual C++】游戏开发笔记二十七 Direct3D 11入门级知识介绍

    游戏开发笔记二十七 Direct3D 11入门级知识介绍 作者:毛星云    邮箱: happylifemxy@163.com    期待着与志同道合的朋友们相互交流 上一节里我们介绍了在迈入Dire ...

  6. [转载]dorado学习笔记(二)

    原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...

  7. PyTorch学习笔记(二)——回归

    PyTorch学习笔记(二)--回归 本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...

  8. tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数

    tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读 评论(2) 收藏 举报  分类: tensorflow(4)  目录(?)[+] 本笔记目的 ...

  9. 趣谈网络协议笔记-二(第十九讲)

    趣谈网络协议笔记-二(第十九讲) HttpDNS:网络世界的地址簿也会指错路 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 引用 dns缓存刷新时间是多久?dns本地缓存时间介绍 - 东大网管 ...

  10. 趣谈网络协议笔记-二(第十八讲)

    趣谈网络协议笔记-二(第十八讲) DNS协议:网络世界的地址簿 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 正文 DNS用于域名解析,但也不仅仅是用于域名解析,不仅仅是将域名转换成IP. 在 ...

最新文章

  1. 手写堆模板(指针数组)
  2. HRFormer 多分辨率Transformer 参数骤降,性能更强
  3. xmpp with openfire之一 xmpp and openfire
  4. SAP SM12 解锁Lock Table
  5. 读取 wps_软件前世今生篇之WPS(求伯君1988年先于OFFICE研发出WPS)
  6. Poisson方程五点差分格式例题及解答
  7. c#开发Mongo笔记第九篇
  8. 现实世界的Windows Azure:采访Gizmox 研发中心的副总裁Itzik Spitzen先生
  9. TREND函数根据上半年各月产品销售量预算出未来销售量
  10. 视频教程-华为HCNP/HCIP路由交换高级网络工程师-华为认证
  11. android 禁止截屏 工具,Android禁止截屏插件
  12. 中国心率监测器行业市场供需与战略研究报告
  13. 记一次独角兽公司双系统迁移合并解决方案
  14. clr 80004005
  15. java解析eml文件_使用JavaMail解析EML文件详解
  16. spring aop统一进行日常及异常的处理
  17. 计算机网络速度测试指令,电脑cmd命令怎么测试网速详细步骤
  18. C++中stack的用法(超详细,入门必看)
  19. WAMP Version 2 5 Version Française
  20. Java数字签名校验

热门文章

  1. Jetpack Compose Modifier 使用入门
  2. java modifier access_Java中的默认访问修饰符是什么? (What is the default access modifier in Java?)...
  3. android安装包解析错误
  4. 中国医科大学计算机应用本科作业答案,17秋中国医科大学《计算机应用基础(本科)》在线作业100分标准答案...
  5. 机器学习实战(Machine Learning in Action)学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维...
  6. 5G注册流程分级详解
  7. 距离多普勒谱(RD谱)绘制方法及理解
  8. 漏洞系列一一看我一招征服漏洞SSRF
  9. 【数藏之家】盘点周杰伦的NFT之路,NFT如何借明星之力形成“破圈效应”?
  10. Linux中常见的ping不通百度问题