一、中文:
1、Pycorrector:https://github.com/shibing624/pycorrector
当前主流的中文纠错框架,支持规则和端到端模型


2、FASPell:https://github.com/iqiyi/FASPell/blob/master
论文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等

3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector
基于Pycorrector改造,实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多,耗时短(归功于前向最大匹配替代了直接索引混淆词典)

4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
对论文Soft-Masked Bert 的复现:https://arxiv.org/pdf/2005.07421.pdf
使用判别模型BiGRU+纠错模型BERT,实现端到端的纠错。

5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接预训练的bert模型实现中文的文本纠错,可参照学习bert如何做纠错任务

二、英文:
1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
更改训练集和测试集,即可应用于其他语言拼写纠错

2、xfspell:https://github.com/mhagiwara/xfspell
基于Transformer的拼写纠错。原理类似于机器翻译,解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据,生成大量包含错别字的文本数据。

3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基于bert预训练模型的拼写纠错(需指定错误位置)

4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基于编辑距离的英文拼写纠错

2020 年 中英文拼写纠错开源框架梳理相关推荐

  1. 中文拼写纠错_中英文拼写纠错开源框架梳理

    一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...

  2. 中英文拼写纠错开源框架梳理

    一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...

  3. NLP-文本处理:拼写纠错【非词(编辑距离)、真词(编辑距离...)候选词 -> “噪音通道模型”计算候选词错拼成待纠错词的似然概率 -> N-gram模型评估候选词组成的语句合理性】

    一.贝叶斯公式 1.单事件 P(Ax∣B)P(A_x|B)P(Ax​∣B)=P(AxB)P(B)=P(B∣Ax)×P(Ax)P(B)=P(B∣Ax)×P(Ax)∑i=0n[P(B∣Ai)∗P(Ai)] ...

  4. 2020,国产AI开源框架“亮剑”TensorFlow、PyTorch

    「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...

  5. 开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo项目分析

    开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo,这个是一个在网上流传比较多的Spri ...

  6. 2020,国产 AI 开源框架“剑指”TensorFlow、PyTorch

    「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...

  7. 拼写纠错(Spelling Correct)技术方案总结

    目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个: 一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接 ...

  8. 中国下一代AI开源框架:国际、创新、实用和长期主义

    中国下一代AI开源框架:国际.创新.实用和长期主义 道翰天琼认知智能机器人平台API接口大脑为您揭秘.目前国内外的AI开源框架领域,以TensorFlow.PyTorch.MindSpore等为代表, ...

  9. java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

    简单的需求 临近下班,小明忙完了今天的任务,正准备下班回家. 一条消息闪烁了起来. "最近发现公众号的拼写检查功能不错,帮助用户发现错别字,体验不错.给我们系统也做一个." 看着这 ...

最新文章

  1. Eclipse的编码
  2. 2020双十一实时大屏_双十一实时“战报”来了,你贡献了多少?
  3. Xcode 添加前缀
  4. linux 进程 崩溃被杀 原因查找
  5. ASP.NET - 截取固定长度字符串显示在页面,多余部分显示为省略号
  6. 01迷宫(BFS+记忆)
  7. python快速部署一个服务器_Python加Shell快速部署集群
  8. 如何解决分布式系统中的“幽灵复现”?-转载自 阿里技术 微信公众号
  9. 使用Drools跟踪输出
  10. 二叉搜索树的插入、删除、修剪、构造操作(leetcode701、450、669、108)
  11. 从Linus Torvalds一封发飙的电邮开始谈设备树究竟是棵什么树?
  12. oracle9i 全库备份,Windows下Oracle9i数据库文件如何自动备份?
  13. java开发_读写txt文件操作
  14. 吴恩达深度学习笔记(十一)—— dropout正则化
  15. 2022年4月中国数据库排行榜:华为GaussDB 挺进前四,榜单前八得分扶摇直上
  16. LNMP一键安装的卸载
  17. Photoshop 2022下载安装+6大新功能教程初体验
  18. 某个程序员的工作记录
  19. 主干分支开发模式_源代码主干分支开发四大模式
  20. 网联到智能,上汽要靠R汽车打赢新一轮“卡位战”

热门文章

  1. 讨教大学|中质协可靠性工程师如何考?
  2. catia 快速确定指南针方向窗口打开
  3. 剑指offer 09. 用两个栈实现一个队列 (JavaScript)
  4. [AIX] IBM机器卸载java
  5. CreateChildControls、EnsureChildControls、RenderControl、Render、RenderChildren
  6. 开源应用中心 | 这款超好用的开源调查工具,别说你还不知道!
  7. FANUC机械手应用贴标机实例
  8. Win7下硬盘安装Ubuntu 12.04.4 LTS双系统
  9. 神之惩戒—-MMORPG的困局
  10. python类中包含一个特殊的变量、它可以访问类的成员_Python类中包含一个特殊的变量( ),它表示当前对象自身,可以访问类的成员....