SRILM使用之ngram-class
ngram-class主要是用来对训练语料的词进行聚类,聚类的依据是基于类的语言模型的困惑度最低。目前仅支持基于类的2gram模型。当然ngarm-class同样会生成ngram-count需要的计数文件和ngram需要的类扩展文件,来训练和使用基于类的N-gram语言模型。
-help
输出帮助信息
-version
输出版本信息
-debug level
输出调试信息,level为0表示不输出调试信息,为了更好跟踪聚类情况,可将level设为2。
输入选项
-vocab vocab_file
读取词典文件vocab_file。如果计数文件中或者训练文件中,如果出现了词典vocab_file之外的词(OOV),则这些词会被替换为<unk>。
-tolower
把词典中的词都变成小写(对英文)
-counts counts_file
读取计数文件counts_file。其中计数文件包含了1阶和2阶计数。
-text text_file
读取训练文件text_file来生成计数文件或语言模型。
聚类
-numclasses C
设置需要聚类的数目C。
-full
SRILM使用之ngram-class相关推荐
- 【Natural Language Processing】语言模型训练工具Srilm的安装及使用简介
实习做了一段时间的语言模型,使用到了Srilm这个工具,简单做一下记录,这个是一个统计和分析语言模型的工具,据说年龄很大了,可能比我大?总之它可以很方便的统计语料的n-gram,以及构建语言模型. ...
- 语言模型训练工具SRILM详解
语言模型训练工具SRILM详解 SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stol ...
- 语言模型训练工具SRILM
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! S ...
- AI大语音(十)——N-gram语言模型(深度解析)
本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音. 但若不是 ...
- srilm 阅读文档15
Discount.cc Discount.h 文档作者:jianzhu 修改时间: 08.12.15-08.12.17 注:本文档改写自rickjin书写的Discount文档 修正了原文档中 ...
- n-gram详细介绍
原文链接:斯坦福大学自然语言处理第四课"语言模型(Language Modeling) 一.课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛 ...
- srilm的使用(二)
来自于:我爱自然语言处理 原始地址:http://www.52nlp.cn/language-model-training-tools-srilm-details 语言模型训练工具SRILM详解 SR ...
- srilm的安装与使用(标贝科技)
欢迎体验标贝语音开放平台 地址:https://ai.data-baker.com/#/?source=qaz123 (注:填写邀请码hi25d7,每日免费调用量还可以翻倍) 一.简介 ...
- DLM:微信大规模分布式n-gram语言模型系统
来源 | 微信后台团队 Wechat & NUS<A Distributed System for Large-scale n-gram Language Models at Tence ...
- 自然语言处理中N-Gram模型介绍
转载一下,这文章写的真好! 自然语言处理中N-Gram模型介绍 - 知乎 容易看懂,. 也是解决了,好奇为什么不用3. 因为,如果使用3的话.那么数量就会大的吓人!
最新文章
- 【VSTO】Office开发中遇到的兼容性检查问题
- 控件的WM_NOTIFY消息映射
- C语言显示系统时间的几个办法
- Let’s Encrypt 免费ssl加密
- Atitit.软件硕士 博士课程 一览表 attilax 总结
- mongodb php存储日志,laravel 框架使用mongodb 保存日志
- 通信算法之二:信道编码译码 BCH码、RS码、卷积码、Turbo码、LDPC码
- 公众号平台服务号、订阅号、企业号区别
- 软件体系结构风格---基于事件的隐式调用
- 【Day4.3】大皇宫内蹭讲解
- hadoop错误:java.io.IOException: There appears to be a gap in the edit log. We expected txid 1
- 类Loopy是公共的, 应在名为 Loopy.java 的文件中声明
- 学习人工智能需要哪些必备基础
- 关于Windows下Uninstall的注册表键值
- lambda正序 倒序 根据自定义大写一二三数组排序
- 装系统遇到的一些问题reboot and select proper boot device
- Verdi详细使用总结
- 游戏开发,丛林战争3
- 通过PP助手安装软件
- 可在广域网部署运行的QQ高仿版 -- GG叽叽V2.0,增加网盘和远程磁盘功能(源码)...