我们的文件有时候不在本地,可能是在网络上,这时候我们该如何对其进行索引呢?当然你可以先通过爬虫把它抓取下来保存到本地硬盘,然后通过上篇博客介绍的方式对其进行索引,其实Solr内置了URLDataSource,支持直接获取远程资源进行索引的,下面就详细介绍该如何配置实现。废话不多说,我直接贴相应的配置文件:

 solrconfig.xml配置文件基本没什么变化,依赖的jar请从上篇博客里获取,

 关键点是dataSource必须是urlDataSource类型才能加载远程资源文件,url表示一个远程资源文件的访问URL。

 最后你需要在schema.xml配置文件中定义一个text域,如图。就这样,配置文件就搞定了,重启你的tomcat开始测试:

 

     OK,打完收工!惯例,solr配置文件我会打包上传到底下附件里供你们参考,依赖的相关jar包请参见上一篇博客,那里面有提供下载地址。

如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙
一起交流学习!

转载:http://iamyida.iteye.com/blog/2214920

跟益达学Solr5之索引网络上远程文件相关推荐

  1. 跟益达学Solr5之索引文件夹下所有文件

    上篇我们学习了如何从PDF文件中提取文本进行索引,今天我们来学习如何对一个文件夹下所有文本文件进行索引.废话不多说,我直接贴相关配置: 首先依然是在solrconfig.xml配置文件中配置datai ...

  2. 跟益达学Solr5之从MySQL数据库导入数据并索引

    最近有小伙伴跟我抱怨说:益达,最近博客更新的有点慢呐.其实不是我变懒了,我是不想因为数量而降低了博客的质量,我需要抱着对你们负责的态度来写每一篇博客,绝不能含糊啊,所以,还望大家多多包涵呐. 今天群里 ...

  3. 跟益达学Solr5之批量索引JSON数据

    假定你有这样一堆JSON数据, Json代码   [ {"id":"1", "name":"Red Lobster",  ...

  4. 跟益达学Solr5之使用Tomcat部署Solr

    最近忙着面试以及生活琐事把时间都霸占了,博客拖了4天没更新了,让各位久等了,望多多包涵!不过还好,工作已经敲定了,终于可以安心的学习Solr并分享我学习的点点滴滴啦! 上回我们在Jetty下部署了,不 ...

  5. 跟益达学Solr5之使用Ansj分词器

    摘要:         OK,直接开门见山,不绕弯子啦!基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如: Xml代码   <fieldType name= ...

  6. 跟益达学Solr5之Facet一瞥

    Facet属于Solr的高级查询部分,之所以在还没有讲解普通Query之前,就开始更新Facet查询,是因为看到很多小伙伴都在为Facet而困扰,其实根本原因还是对Facet不理解.Facet英文单词 ...

  7. 跟益达学Solr5之使用IK分词器

    在Solr中该如何使用IK分词器呢,这是小伙伴们问的频率比较高的一个问题,今晚特此更新此篇博客.其实之前我在其他博客里已经使用了IK分词器,只是我没做详细说明. 在schema.xml配置中其实有很多 ...

  8. 跟益达学Solr5之拼音分词

    应群友强烈要求,特此更新此篇博客.其实在我的Lucene5系列博客里我已经介绍了拼音分词,遗憾的是,大家不能举一反三,好吧,还是我亲自上马吧! 首先我们来看看我当初使用Lucene5是如何实现的,   ...

  9. 跟益达学Solr5之使用MMSeg4J分词器

    要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个TokenizerFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,存在弊 ...

最新文章

  1. Redis在C#中的使用及Redis的封装
  2. 拖链电缆 机器人电缆_洞头高柔性拖链网线标柔电缆
  3. 查看线上环境中的jvm参数
  4. Java面试必学-吐血推荐
  5. 实现3d图片移动_「3D建模」什么是动画和角色设计的3D索具?
  6. Tomcat servlet工作原理
  7. Android ViewRoot、DecorViewWindow浅析
  8. Facebook AI牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!...
  9. E13- terminal is not big enough
  10. vue.js笔记1.0
  11. k8s启动Pod报错CrashLoopBackOff
  12. Android NetworkLocationProvider and GeocodeProvider
  13. 初步用Echarts实现圆饼图
  14. 无法启动此程序因为计算机中丢失d3dx,无法启动此程序,因此计算机中丢失d3dx9-41.dll怎么解决?...
  15. 十六进制格式颜色转换成RGB格式颜色
  16. HTML5 颜色及透明度
  17. 567LH-DP24 驱动器 REO ELEKTRONIK NC系列
  18. 两狗(sogou google)相争,必有一伤
  19. Android开发类似苹果iOS 7的沉浸式状态栏
  20. 【正则表达式】自动生成各类正则代码

热门文章

  1. 亲测有效的下载微信公众号推文视频的一种方法。
  2. 超级简单的永久关闭广告弹窗
  3. 一体化办公平台,办公效率就一个字:高
  4. 华为帐号服务升级,助力应用快速验证用户身份
  5. Web前端期末大作业-卫浴商店公司网页设计(HTML+CSS+JS)
  6. 地址栏输入url按回车发生了什么
  7. word2016开机后首次打开非常慢_win10系统开机提速方案
  8. hr提的工资可以商量么_但是我可以商量
  9. 骁龙 712 移动平台正式发布,高通也开始挤牙膏了
  10. 程序猿 520 表白方式