2020 年 中英文拼写纠错开源框架梳理
一、中文:
1、Pycorrector:https://github.com/shibing624/pycorrector
当前主流的中文纠错框架,支持规则和端到端模型
2、FASPell:https://github.com/iqiyi/FASPell/blob/master
论文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等
3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector
基于Pycorrector改造,实现基于纯规则的纠错系统。整个系统框架比较详细。与Pycorrector准确度差不多,耗时短(归功于前向最大匹配替代了直接索引混淆词典)
4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
对论文Soft-Masked Bert 的复现:https://arxiv.org/pdf/2005.07421.pdf
使用判别模型BiGRU+纠错模型BERT,实现端到端的纠错。
5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接预训练的bert模型实现中文的文本纠错,可参照学习bert如何做纠错任务
二、英文:
1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
更改训练集和测试集,即可应用于其他语言拼写纠错
2、xfspell:https://github.com/mhagiwara/xfspell
基于Transformer的拼写纠错。原理类似于机器翻译,解决了纠错时输入和输出必须保持一致的问题。通过交换输入数据和输出数据,生成大量包含错别字的文本数据。
3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基于bert预训练模型的拼写纠错(需指定错误位置)
4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基于编辑距离的英文拼写纠错
2020 年 中英文拼写纠错开源框架梳理相关推荐
- 中文拼写纠错_中英文拼写纠错开源框架梳理
一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...
- 中英文拼写纠错开源框架梳理
一.中文: 1.Pycorrector:https://github.com/shibing624/pycorrector 当前主流的中文纠错框架,支持规则和端到端模型 2.FASPell:https ...
- NLP-文本处理:拼写纠错【非词(编辑距离)、真词(编辑距离...)候选词 -> “噪音通道模型”计算候选词错拼成待纠错词的似然概率 -> N-gram模型评估候选词组成的语句合理性】
一.贝叶斯公式 1.单事件 P(Ax∣B)P(A_x|B)P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)×P(Ax)P(B)=P(B∣Ax)×P(Ax)∑i=0n[P(B∣Ai)∗P(Ai)] ...
- 2020,国产AI开源框架“亮剑”TensorFlow、PyTorch
「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...
- 开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo项目分析
开源框架完美组合之Spring.NET + NHibernate + ASP.NET MVC + jQuery + easyUI 中英文双语言小型企业网站Demo,这个是一个在网上流传比较多的Spri ...
- 2020,国产 AI 开源框架“剑指”TensorFlow、PyTorch
「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...
- 拼写纠错(Spelling Correct)技术方案总结
目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个: 一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接 ...
- 中国下一代AI开源框架:国际、创新、实用和长期主义
中国下一代AI开源框架:国际.创新.实用和长期主义 道翰天琼认知智能机器人平台API接口大脑为您揭秘.目前国内外的AI开源框架领域,以TensorFlow.PyTorch.MindSpore等为代表, ...
- java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!
简单的需求 临近下班,小明忙完了今天的任务,正准备下班回家. 一条消息闪烁了起来. "最近发现公众号的拼写检查功能不错,帮助用户发现错别字,体验不错.给我们系统也做一个." 看着这 ...
最新文章
- Eclipse的编码
- 2020双十一实时大屏_双十一实时“战报”来了,你贡献了多少?
- Xcode 添加前缀
- linux 进程 崩溃被杀 原因查找
- ASP.NET - 截取固定长度字符串显示在页面,多余部分显示为省略号
- 01迷宫(BFS+记忆)
- python快速部署一个服务器_Python加Shell快速部署集群
- 如何解决分布式系统中的“幽灵复现”?-转载自 阿里技术 微信公众号
- 使用Drools跟踪输出
- 二叉搜索树的插入、删除、修剪、构造操作(leetcode701、450、669、108)
- 从Linus Torvalds一封发飙的电邮开始谈设备树究竟是棵什么树?
- oracle9i 全库备份,Windows下Oracle9i数据库文件如何自动备份?
- java开发_读写txt文件操作
- 吴恩达深度学习笔记(十一)—— dropout正则化
- 2022年4月中国数据库排行榜:华为GaussDB 挺进前四,榜单前八得分扶摇直上
- LNMP一键安装的卸载
- Photoshop 2022下载安装+6大新功能教程初体验
- 某个程序员的工作记录
- 主干分支开发模式_源代码主干分支开发四大模式
- 网联到智能,上汽要靠R汽车打赢新一轮“卡位战”
热门文章
- 讨教大学|中质协可靠性工程师如何考?
- catia 快速确定指南针方向窗口打开
- 剑指offer 09. 用两个栈实现一个队列 (JavaScript)
- [AIX] IBM机器卸载java
- CreateChildControls、EnsureChildControls、RenderControl、Render、RenderChildren
- 开源应用中心 | 这款超好用的开源调查工具,别说你还不知道!
- FANUC机械手应用贴标机实例
- Win7下硬盘安装Ubuntu 12.04.4 LTS双系统
- 神之惩戒—-MMORPG的困局
- python类中包含一个特殊的变量、它可以访问类的成员_Python类中包含一个特殊的变量( ),它表示当前对象自身,可以访问类的成员....