一.基于统计语言模型的中文拼写纠错

1.流程图

2.实验结果

局部方法的实验结果:

全局方法的实验结果:

3.初步结论

缺点:

a.SLM对训练语料的规模和质量敏感。

b.错词检测策略灵活,变化较多。单纯的局部⽅法和全局方法都应该不是一个⾮常合理的方案。

c.检错准确率较低,全局⽅法的评估受错词阈值影响大。

优点:

a.训练速度和推断速度快,模型部署容易。

思考:

a.虽然在测试集上的准确率较低,但是从附录的测试来看,检测效果还不错。原因正在考虑。

b.检错的策略需要深入思考。

c.基于SLM的⽅案检错和纠错分两步走,纠错时目前想到的⽅案有两种,⼀种是基于词语搭配的⽅式,找出错词的前⼀个词作为Key,用Value替换检测出的错词,算句子的PPL或者n-gram得分,其中句子搭配可以基于依存句法分析或者搜狗语料库中给出了一个基于统计的搜索词搭配数据集,或者第三⽅构建的混淆集。

另⼀种⽅案是按照构建训练数据集的方式,基于百度输⼊入法的API,按照错词拼音的全拼和简拼方式 构建K-V字典作为混淆集。

但是无论上述哪一种,检错都是最关键,最重要的一步。

d.考虑到部署,基于SLM的方案尚不成熟,故可能Transformer的方案会OK⼀一些。

e.End-2-End的DL⽅法的确是很棒的,省去了很多细节上的考察和思考,SLM还有很多细节值得去思考。

4.一些测试例子(列表中的词表示检测出的错词)

[‘化夏’] 化夏 ⼦孙 团结一心 。

[‘形像’] 形像 代⾔⼈人 。

[‘影像’] 此事 不 会 影像 中国 关系 ⼤局 。

[‘计画’] 我们 会 优先 推动 五 大 创新 研发 计画 。

[‘惊吁声’] ⼈群 中 发出 一阵 惊吁声 。

二.基于Sequence Tagging的思路

1. 输入输出和模型选择

2.结果评估

三.基于Sequence2Sequence的思路

1.模型选择

模型上选择Transformer,使用Tensor2Tensor作为训练框架。

2.结果评估

四.基于百度文本纠错的API的思路

该思路在单独一篇博客中讲到,参看这篇文章。

总结:从自己构建的数据集测试结果来看,基于生成的思路效果最好,同时可以完成检错和纠错;基于传统统计的方法,检错和纠错需要分开做,需要考虑的细节问题较多,该问题值得继续深入研究。

参考文献:

列举上述三篇参考资料,重在讨论检错策略。在不同的文件中,提出了不同的检错策略。

英语流利说的模型,应用在英文场景下,模型比较简单,但是效果很不错。

中文拼写纠错_[NLP]中文拼写检纠错相关推荐

  1. nlp 中文文本纠错_百度中文纠错技术

    原标题:百度中文纠错技术 分享嘉宾:付志宏 百度资深研发工程师 编辑整理:李润顺 内容来源:Baidu Brain & DataFun AI Talk<百度中文纠错技术> 出品社区 ...

  2. mysql 中文搜索插件_支持中文的MySQL 5.1+ 全文检索分词插件

    经过不停的尝试和努力,以最新的 mysql 5.1.11-beta 为基础,制作的分词插件已经测试成功,现在发布如下. 由于 mysql 5.1.x 本身的架构作了修改,所以增加分词直接以插件形式方式 ...

  3. python中文分词工具_结巴中文分词工具的安装使用 Python分词教程

    结巴分词 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

  4. pgsql 筛选中文字符正则_匹配中文字符的正则表达式

    匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度(一 ...

  5. mysql 中文分词搜索_利用中文分词打造数据库全文检索

    传统的 LIKE 模糊查询(前置百分号)无法利用索引,特别是多个关键词 OR,或在多个字段中 LIKE,更是效率低下.本文研究对文章进行分词以提高检索的准确度和查询效率. 根据自己的编程语言选择一款合 ...

  6. NLP判断语言情绪_最新中文NLP开源工具箱来了!支持6大任务,面向工业应用 | 资源...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于开发者来说,又有一个新的NLP工具箱可以使用了,代号PaddleNLP,目前已开源. 在这个基于百度深度学习平台飞桨(PaddlePad ...

  7. 中文表示什么_中文分词是个伪问题

    六年以前,第一个中文分词系统的发明人郝玺龙先生对我讲,中文分词是个伪问题.当时NLP刚入门的我完全听不懂. 最近试用了一下BERT,做了个简单的文本分类.以前做这类任务的方法都是先分词,然后把词向量化 ...

  8. nlp中文文本摘要提取,快速提取文本主要意思

    文本摘要提取 之前写过一版 文本摘要提取,但那版并不完美.有所缺陷(但也获得几十次收藏). 中文文本摘要提取 (文本摘要提取 有代码)基于python 今天写改进版的文本摘要提取. 文本摘要旨在将文本 ...

  9. nlp 中文停用词数据集

    nlp 中文停用词数据集 不多说,上数据集 --- >), )÷(1- ", ). =( : → ℃ & * 一一 ~~~~ ' . 『 .一 ./ -- 』 =″ [ [*] ...

最新文章

  1. C++ Primer 5th笔记(chap 16 模板和泛型编程)重载与模板
  2. altium 去掉部分铺铜_干货|HFSS器件导入Altium进行PCB制作教程!!!
  3. 首发 | 中间件小姐姐直播“带货”——阿里程序员必知的插件
  4. 位运算 中度难度 子集
  5. mysql添加用户权限报1064 - You have an error in your SQL syntax问题解决
  6. 关于GO语言,这篇文章讲的很明白
  7. [Teaching] [Silverlight] 30秒快速建立遊戲迴圈 (Game Loop)
  8. extjs4 grid 刷新数据时不改变滚动条位置
  9. java的反射技术_Java学习——反射技术
  10. android文件管理器编写,Android编写文件浏览器简单实现
  11. 【待填坑】js构造函数和内置对象的区别
  12. 判断手机上是否安装某个APP(iOS)
  13. 计算机一级是几寸的,14寸笔记本电脑分辨率多少合适?14寸笔记本电脑尺寸是多少?...
  14. python 离散点 等高线_飞时达软件离散点高程、等高线高程、特征线高程等检查与处理...
  15. tplink迷你路由器中继模式_TP-link迷你无线路由器Repeater模式(中继模式)设置教程(转载).docx...
  16. java单点登录需求分析与代码实现
  17. 基本农田卫星地图查询_天地图山东,购房者勘测利器,国产骄傲
  18. 在线CC攻击网站源码
  19. 【设计模式】模板方法模式
  20. math.floor javascript

热门文章

  1. cesium对模型进行光着色实现
  2. 一篇NDSS的关于SDN缓冲区漏洞的论文
  3. 交流永磁同步电机简述
  4. 使用python+pyqt5开发桌面工具
  5. Java web 红头文件打印方案之协同OA
  6. 【PhotoShop】三大图层样式运用介绍
  7. 你的 Matter 智能家居设备,是真连接,还是假智能?
  8. RabbitMQ快速入门,5个MQ的Demo示例
  9. java比价_基于JAVA的慢慢买比价网api调用代码实例
  10. LINUX 构建PXE一键装机平台