Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本,目前最新版本是4.6。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。

Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究,包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等各方面技术的研究。工具包支持对大规模文本数据建立索引,对文档和查询构建简单的语言模型,同时实现了基于语言模型的检索系统。整个系统用C和C++语言实现,可在Unix和Windows系统下运行。

Lemur Toolkit支持XML检索,以下分析Lemur Toolkit的结构时,是针对XML检索和查询部分。

参数文件

Lemur在windos下建立索引, 是在命令行下运行以下命令:

IndriBuildIndex.exe parameter file

Lemur是根据指定的配置文件parameter file来对XML文档集建立索引的。parameter file是一个包含建立索引时必要信息的XML文件。一个参数文件的样例如下:

<parameters>

<index>F:/xmltest/index</index>

<corpus>

<path>F:/xmltest/testdoc</path>

<class>xml</class>

</corpus>

<memory>128m</memory>

<stemmer>

<name>krovetz</name>

</stemmer>

<stopper>

<word>a</word>

<word>an</word>

<word>the</word>

</stopper>

<field>

<name>title</name>

</field>

<field>

<name>author</name>

</field>

</parameters>

Index:表示创建后的索引存放的目录,示例的配置文件表示把索引存放在索引存放在F:/xmltest/index目录下面。

Corpus:表示要创建索引的XML文档集。示例的配置文件表示把F:/xmltest/testdoc目录下的XML文档集建立索引;class表示文档集的类型,Lemur支持html、txt、xml、pdf等类型。

Memory:使用128M的内存建立Memory Index(Memory Index参见2.2.5节),Lemur在把XML文档解析后,建立的索引先放在内存的Memory Index,当Memory Index耗尽后,就把Memory Index存放的部分索引保存到硬盘上,之后清空Memory Index存放余下的XML文档建立的索引,当索引完整个XML文档集之后,把硬盘上的所有部分索引归并,形成一个最终的索引。

Stemmer:表示取词根的方法,Lemur支持Krovetz和Porter 这两种方法。

Stopper:表示stopper word的列表。

Field:在文档集中要索引的元素结点,没指定的不建立索引。示例的配置文件表示只对XML文档集中title或author的元素结点建立索引。并后的这样在处理比较大型的文档集时非常不方便,因为不能预先知道文档集中元素结点的名字,所以系统默认的建索引方式有待改进。

Lemur在windos下执行查询, 是在命令行下运行以下命令:

IndriRunQuery.exe parameter file

Lemur是根据指定的配置文件parameter file来执行查询的。一个配置文件的样例如下:

<parameters>

<index>d:/test/index</index>

<memory>128m</memory>

<query>

<number>2</number>

<type>nexi</type>

<text>//artilcle[about(., microkernel operating systems)]</text>

</query>

</parameters>

Index:表示要查询的索引,也就是Lemur在创建索引时,索引存放的目录;

Memory:在查询过程中使用的内存的大小;

Query:其中number只标识不同查询的查询,type表明查询语句的类型,Lemur支持inquery和nexi,text表示具体的查询语句。

Lemur的参数文件相关推荐

  1. oracle参数文件initorcl位置,ORACLE参数文件

    ORACLE参数文件 简介 参数文件记录了数据库的配置.在数据库启动时,Oracle要根据参数文件中的参数配置数据库.如果为各个内存池分配多少内存,允许打开的进程数和会话数等.要让数据库启动,必须先读 ...

  2. Oracle的参数文件pfile和spfile

    Oracle中的参数文件是一个包含一系列参数以及参数对应值的操作系统文件.它们是在数据库实例启动时候加载的,决定了数据库的物理 结构.内存.数据库的限制及系统大量的默认值.数据库的各种物理属性.指定数 ...

  3. SAP RETAIL初阶之事务代码MP83 显示一个预测参数文件

    SAP RETAIL初阶之事务代码MP83 显示一个预测参数文件 注:本文是一篇入门级的简单文章,仅适用于SAP REATAIL初学者,SAP零售大拿们可以跳过了. 笔者使用事务代码MP81创建了一个 ...

  4. 《MySQL技术内幕:InnoDB存储引擎第2版》——3.1 参数文件

    3.1 参数文件 在第1章中已经介绍过了,当MySQL实例启动时,数据库会先去读一个配置参数文件,用来寻找数据库的各种文件所在位置以及指定某些初始化参数,这些参数通常定义了某种内存结构有多大等.在默认 ...

  5. Script:找出ASM中的Spfile参数文件

    以下脚本可以用于找出ASM存储中的Spfile参数文件,因为使用asmcmd去查找很不方便,而spfile丢失又是很头大的事情, 所以有一个脚本代劳可以省不少功夫呢! --- listspfiles. ...

  6. Oracle RMAN 还原与恢复(一)--还原服务器参数文件

    一. RMAN 还原与恢复基础 在RMAN 用于中,还原与恢复是两个不同的概念. 还原(restore):指访问先前生成的备份,从中得到一个或多个对象,然后在磁盘上的某个位置还原这些对象. 恢复(re ...

  7. oracle参数文件的本质

    环境: SQL> select * from v$version where rownum=1; BANNER ----------------------------------------- ...

  8. ORACLE初始化参数文件概述

    ORACLE初始化参数文件概述 在9i之前,参数文件只有一种,它是文本格式的,称为pfile,在9i及以后的版本中,新增了服务器参数文件,称为spfile,它是二进制格式的.这两种参数文件都是用来存储 ...

  9. linux下oracle数据库由于参数文件丢失导致的数据库服务启动失败,报“failure in processing system parameters“错误问题解决

    ORA-01078: failure in processing system parameters LRM-00109: could not open parameter file '/data/o ...

最新文章

  1. 【问题收录】Eclipse the import java.awt cannot be resolve 问题解决
  2. 怎么安装python3-centos编译安装python3怎么做?
  3. foundation of the academics
  4. 后端:Java 中 10 大坑爹功能!
  5. 代码生成(Code Generation) 表达式编译
  6. ChannelSplitterNode
  7. datetimepicker一个不错的日历android特效
  8. python dataframe是否为空_python if条件判断dataframe是否为空
  9. 报错:error while loading shared libraries: libz.so.1: cannot open shared object file
  10. Excel在数据分析和日常工作的运用
  11. JavaCV 第一个JavaCV程序
  12. 明御安全网关(IPS)批量导入黑名单IP
  13. NV Fermi游戏架构全解析
  14. 性能测试(二)-重要性能指标TPS、RT
  15. (转)任正非对新员工的寄语:烧不死的就是凤凰
  16. Java解一元二次方程和四则运算
  17. 2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis
  18. 临沂中考计算机试题,2017临沂中考信息技术题库带答案
  19. Java 求a+b的值
  20. JavaSE中的方法

热门文章

  1. Personalized Edge Intelligence via Federated Self-Knowledge Distillation, TPDS 2023
  2. /storage/emulated/0 (Permission denied) 权限已开,写入sd卡仍报错的解决办法
  3. java中ISO8601标准时间格式的转换
  4. dorado Tip控件:信息提示组件
  5. 论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning
  6. Jenkins插件离线下载及导入
  7. AnnotationAttributes
  8. Java 从键盘输入一个字符串,统计某个字符的个数
  9. 自动化运维之系统安装部署
  10. linux中的link