ngram-class主要是用来对训练语料的词进行聚类,聚类的依据是基于类的语言模型的困惑度最低。目前仅支持基于类的2gram模型。当然ngarm-class同样会生成ngram-count需要的计数文件和ngram需要的类扩展文件,来训练和使用基于类的N-gram语言模型。

-help

输出帮助信息

-version

输出版本信息

-debug    level

输出调试信息,level为0表示不输出调试信息,为了更好跟踪聚类情况,可将level设为2。

输入选项

-vocab    vocab_file

读取词典文件vocab_file。如果计数文件中或者训练文件中,如果出现了词典vocab_file之外的词(OOV),则这些词会被替换为<unk>。

-tolower

把词典中的词都变成小写(对英文)

-counts    counts_file

读取计数文件counts_file。其中计数文件包含了1阶和2阶计数。

-text    text_file

读取训练文件text_file来生成计数文件或语言模型。

聚类

-numclasses    C

设置需要聚类的数目C。

-full

SRILM使用之ngram-class相关推荐

  1. 【Natural Language Processing】语言模型训练工具Srilm的安装及使用简介

      实习做了一段时间的语言模型,使用到了Srilm这个工具,简单做一下记录,这个是一个统计和分析语言模型的工具,据说年龄很大了,可能比我大?总之它可以很方便的统计语料的n-gram,以及构建语言模型. ...

  2. 语言模型训练工具SRILM详解

    语言模型训练工具SRILM详解 SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stol ...

  3. 语言模型训练工具SRILM

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴!    S ...

  4. AI大语音(十)——N-gram语言模型(深度解析)

    本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音. 但若不是 ...

  5. srilm 阅读文档15

    Discount.cc Discount.h 文档作者:jianzhu 修改时间: 08.12.15-08.12.17 注:本文档改写自rickjin书写的Discount文档     修正了原文档中 ...

  6. n-gram详细介绍

    原文链接:斯坦福大学自然语言处理第四课"语言模型(Language Modeling) 一.课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛 ...

  7. srilm的使用(二)

    来自于:我爱自然语言处理 原始地址:http://www.52nlp.cn/language-model-training-tools-srilm-details 语言模型训练工具SRILM详解 SR ...

  8. srilm的安装与使用(标贝科技)

    欢迎体验标贝语音开放平台 地址:https://ai.data-baker.com/#/?source=qaz123 (注:填写邀请码hi25d7,每日免费调用量还可以翻倍) ​​​​​​ 一.简介 ...

  9. DLM:微信大规模分布式n-gram语言模型系统

    来源 | 微信后台团队 Wechat & NUS<A Distributed System for Large-scale n-gram Language Models at Tence ...

  10. 自然语言处理中N-Gram模型介绍

    转载一下,这文章写的真好! 自然语言处理中N-Gram模型介绍 - 知乎 容易看懂,. 也是解决了,好奇为什么不用3. 因为,如果使用3的话.那么数量就会大的吓人!

最新文章

  1. 【VSTO】Office开发中遇到的兼容性检查问题
  2. 控件的WM_NOTIFY消息映射
  3. C语言显示系统时间的几个办法
  4. Let’s Encrypt 免费ssl加密
  5. Atitit.软件硕士  博士课程 一览表 attilax 总结
  6. mongodb php存储日志,laravel 框架使用mongodb 保存日志
  7. 通信算法之二:信道编码译码 BCH码、RS码、卷积码、Turbo码、LDPC码
  8. 公众号平台服务号、订阅号、企业号区别
  9. 软件体系结构风格---基于事件的隐式调用
  10. 【Day4.3】大皇宫内蹭讲解
  11. hadoop错误:java.io.IOException: There appears to be a gap in the edit log. We expected txid 1
  12. 类Loopy是公共的, 应在名为 Loopy.java 的文件中声明
  13. 学习人工智能需要哪些必备基础
  14. 关于Windows下Uninstall的注册表键值
  15. lambda正序 倒序 根据自定义大写一二三数组排序
  16. 装系统遇到的一些问题reboot and select proper boot device
  17. Verdi详细使用总结
  18. 游戏开发,丛林战争3
  19. 通过PP助手安装软件
  20. 可在广域网部署运行的QQ高仿版 -- GG叽叽V2.0,增加网盘和远程磁盘功能(源码)...

热门文章

  1. Redis事务入门及命令
  2. js 批量移除steam游戏 移除用户凭证中免费获取的物品
  3. word中将文档的高亮文字全部选中并加粗
  4. 将数组转化成字符串进行传参
  5. 三菱plc pwm指令_三菱PLC的指令代码,纯干货,需要的保存吧
  6. ChatGPT写python代码实录
  7. 保存标签合集(自用)
  8. 最新qu水印小程序源码
  9. 插画是什么?插画和原画有什么区别 插画知识科普
  10. 什么是回调地狱以及怎样解决回调地狱