Nutch 笔记(二):Craw more urls and Recrawl
nutch wiki上有现成的script,我们只需要拿来用用即可
![](http://mmm.iteye.com/images/smiles/icon_biggrin.gif)
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03
把它放在nutch-0.8.1/bin/recrawl.sh
![](http://mmm.iteye.com/images/icon_star.png)
- martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/
- 10 1 5
wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是
![](http://mmm.iteye.com/images/icon_star.png)
- touch $tomcat_dir/WEB-INF/web.xml
让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。
二:Crawl more urls and merge
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。
新增news.163.com
![](http://mmm.iteye.com/images/icon_star.png)
- mkdir url2
- echo http://news.163.com>url2/163
重新执行我们上面提到的crawl
![](http://mmm.iteye.com/images/icon_star.png)
- martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50
note:
这个时间会很长,如果你愿意可以用别的资讯很少的网站代替
合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。
![](http://mmm.iteye.com/images/icon_star.png)
- martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/
传递的两个参数分别是两次crawl的目录
修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录
![](http://mmm.iteye.com/images/icon_star.png)
- perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
重新加载webapp
![](http://mmm.iteye.com/images/icon_star.png)
- touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml
以下是截图
这个是163的
这个是xici的
Nutch 笔记(二):Craw more urls and Recrawl相关推荐
- nutch开发(二)
nutch开发(二) 文章目录 nutch开发(二) 开发环境 1.爬取后生成的目录结构 crawldb linkdb segments 2.阅读TestCrawlDbMerger createCra ...
- 《How Tomcat Works》读书笔记(二)
<How Tomcat Works>读书笔记(二) 这是<How Tomcat Works>第一二章的读书笔记.第一张主要写了一个静态资源处理的web服务器,第二章加了对ser ...
- qml学习笔记(二):可视化元素基类Item详解(上半场anchors等等)
原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...
- oracle直查和call哪个更快,让oracle跑的更快1读书笔记二
当前位置:我的异常网» 数据库 » <>读书笔记二 <>读书笔记二 www.myexceptions.net 网友分享于:2013-08-23 浏览:9次 <> ...
- 【Visual C++】游戏开发笔记二十七 Direct3D 11入门级知识介绍
游戏开发笔记二十七 Direct3D 11入门级知识介绍 作者:毛星云 邮箱: happylifemxy@163.com 期待着与志同道合的朋友们相互交流 上一节里我们介绍了在迈入Dire ...
- [转载]dorado学习笔记(二)
原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...
- PyTorch学习笔记(二)——回归
PyTorch学习笔记(二)--回归 本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...
- tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数
tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读 评论(2) 收藏 举报 分类: tensorflow(4) 目录(?)[+] 本笔记目的 ...
- 趣谈网络协议笔记-二(第十九讲)
趣谈网络协议笔记-二(第十九讲) HttpDNS:网络世界的地址簿也会指错路 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 引用 dns缓存刷新时间是多久?dns本地缓存时间介绍 - 东大网管 ...
- 趣谈网络协议笔记-二(第十八讲)
趣谈网络协议笔记-二(第十八讲) DNS协议:网络世界的地址簿 自勉 勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 正文 DNS用于域名解析,但也不仅仅是用于域名解析,不仅仅是将域名转换成IP. 在 ...
最新文章
- 手写堆模板(指针数组)
- HRFormer 多分辨率Transformer 参数骤降,性能更强
- xmpp with openfire之一 xmpp and openfire
- SAP SM12 解锁Lock Table
- 读取 wps_软件前世今生篇之WPS(求伯君1988年先于OFFICE研发出WPS)
- Poisson方程五点差分格式例题及解答
- c#开发Mongo笔记第九篇
- 现实世界的Windows Azure:采访Gizmox 研发中心的副总裁Itzik Spitzen先生
- TREND函数根据上半年各月产品销售量预算出未来销售量
- 视频教程-华为HCNP/HCIP路由交换高级网络工程师-华为认证
- android 禁止截屏 工具,Android禁止截屏插件
- 中国心率监测器行业市场供需与战略研究报告
- 记一次独角兽公司双系统迁移合并解决方案
- clr 80004005
- java解析eml文件_使用JavaMail解析EML文件详解
- spring aop统一进行日常及异常的处理
- 计算机网络速度测试指令,电脑cmd命令怎么测试网速详细步骤
- C++中stack的用法(超详细,入门必看)
- WAMP Version 2 5 Version Française
- Java数字签名校验
热门文章
- Jetpack Compose Modifier 使用入门
- java modifier access_Java中的默认访问修饰符是什么? (What is the default access modifier in Java?)...
- android安装包解析错误
- 中国医科大学计算机应用本科作业答案,17秋中国医科大学《计算机应用基础(本科)》在线作业100分标准答案...
- 机器学习实战(Machine Learning in Action)学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维...
- 5G注册流程分级详解
- 距离多普勒谱(RD谱)绘制方法及理解
- 漏洞系列一一看我一招征服漏洞SSRF
- 【数藏之家】盘点周杰伦的NFT之路,NFT如何借明星之力形成“破圈效应”?
- Linux中常见的ping不通百度问题