互联网软件错别字识别系统之初想一
- 背景
- 初步设想
- 数据源
- 对比过程
- 词库
- 结果输出
- 初步的设想
背景:
搜狗公布了2017年第一部互联网错别字报告,但是对于一个QA,我们要如何提高自己的错别字能力
1,提升自己的语文水平能力,如果当年语文试题第一题经常不能得分的,可能是个坑
2,提什自己对错别字的敏感度,其实也是一种责任心,错别字可能没多大危害,但是可能是越低级的错误越显得严重。
初步设想:
我们要用程序的角度去解决这个问题,如何用自动化去识别别名。
其实几个重点的任务:
数据源:
1,需要识别我们代码中的中文,代码中的有些是注释可能有错别字,但是非注释的错别字可能用户是能看见需要对扫码的代码的几何注释需区分
2,有种是设计师设计的时候就已经在图片上写了错别字。
对比过程:
1,单纯的错别字匹配,需要自己有个强大的错别字库,一般搜索出来的都是语句,这有两种方式,错词库是否命 语句中的词语,但是中文的组合博大精深,很容易匹配的不是一个词语。逆向匹配,语句先分词,在去命中错词库,所以前提是需要强大的分词,才会保证正确率,同时对于公司的个性词语,需要有自定义分词的能力。
提示语1:XXX错误,请稍后再试!
提示语2:XXXX,请稍候
对于请稍后和请稍候,在中华大辞典解释前置偏重时间,后者偏重行为,如果匹配出请稍后,那么这次是错误还是正确了?
我们的强大的分词库,需要不断的学习。
这块也有一些牛逼的算法,根据前后词语出现的频率,不断的去和后面的词组合,在某个低零界点以下的频率组合,我们可能初步判断这个词是错别字。这种可以检验漏词。
2,拼音校验,现在的新生代的互联网人,很少用五笔,错别字的诞生很多是由于拼音输入和大脑潜意识,觉得这个词对的,这种很难考错别字库去命中,所以这种可以通汉字转换成拼音,这个词语的拼音的匹配度,汉字的匹配度来猜测是否是错别字,一般容易出现的缺少克,这只ZH,Z类型,或者L,N这些输入错误,这种错误会造成一个这两词语的拼音相似度在80%以上,同时一个汉字的写对了,另外一个写错了,所以中文的匹配度至少大于50%,我们初步可以判断这个词语是错别字。这个模型可不断的优化。
词库:
根据上述,我们需要很多词库
1,一个强大的分词库
2,用户自定义的个性分词库
3,中文的正确与错别的词库
4,拼音对应的词语正确的词库
结果输出:
其实程序输出,还是需要认为二次确认下,可暂时输入的除外,前期是想直接掉提单系统的API直 提单,后面想想还是前期二次确认下,保证命中错别的准确性。
初步的设想:
后续关注blog,可加入QQ测试进阶3群:363550351
互联网软件错别字识别系统之初想一相关推荐
- 科普---互联网图片 文字识别系统 你造么
文通互联网图片文字识别系统 你不努力,别人就会超越你! 我明白.不是每一次付出的努力都会得到收货! 但是我始终相信每一次收货.都需要付出努力! 我们的OCR一直在努力改进.提升! 我们在一直按照我们的 ...
- 车牌识别存储云服务器,车牌识别系统大显神威,实现智慧交通的“最强利器”。...
随着人们生活水平提高,私家车的数量逐年增加,截至2017年底全国机动车保有量已达3.10亿辆.交通压力越来越严峻,智能化交通管理已成为交通发展的大方向.其中车牌识别系统的大力发展可以说是解决拥堵问题, ...
- 检查错别字在线检测系统网站,免费错别字识别软件丨推荐
文字的出现为我们的生活带来了便利,对于不能使用语言的人来说,文字的力量也是比较强大的,同时文字的传播形式也随着网络的发展逐渐增加,通过网络传播,文字以数据的形式被人们所熟知,网络文字的门槛较低,容易出 ...
- python车牌识别系统开源代码_北京百万庄车牌识别的软件人气火爆
北京车牌识别厂家直销 北京百万庄车牌识别的软件人气火爆 与字符数据库模板中的标准字符表达形式进行匹配判别,结果输出:将车牌识别的结果以文本格式输出,以上就是车牌识别系统的工作原理,希望能够帮助大家更好 ...
- 脱机手写中文文本行识别系统——软件设计方案
转载自https://www.cnblogs.com/yaojinsong/p/14203601.html 通过高级软件工程课,我学习到了软件工程分析的方法.本文将对工程实践使用软件工程方法进行分析, ...
- 泰州市区首次试用“闯红灯人脸识别系统”;“冷扑大师”想用AI提高肾脏移植效率 | AI掘金晚报
泰州市区首次试用"闯红灯人脸识别系统":"冷扑大师"想用AI提高肾脏移植效率 | AI掘金晚报 本文作者:李晓利 2017-08-06 20:10 导语:泰州市 ...
- iNeuOS工业互联网操作系统,矿山动态产量计量系统和铁路车辆识别系统应用场景案例...
目 录 1. 概述... 2 2. 平台演示... 2 3. 矿山动态产量计量系统... 2 4. 铁路车辆识别系统... 4 1. 概述 iN ...
- 专家库管理软件专家评审系统_专家系统2 0
专家库管理软件专家评审系统 Are neural networks and deep learning the keys that will finally unlock the path to ar ...
- 基于MATLAB的人脸考勤识别系统
基于MATLAB的人脸考勤识别系统 摘 要 人脸识别是模式识别和图像处理等学科的一个研究热点,它广泛应用在身份验证.刑侦破案.视频监视.机器人智能化和医学等领域,具有广阔的应用价值和商用价值.人脸特征 ...
最新文章
- 极客产品经理学习笔记
- WebDriver中的元素状态检测表
- 介绍几个医学图像处理会议
- 对new int[]()的理解(转载)
- Android开发笔记(七十七)图片缓存算法
- Eclipse快捷键之搜索
- 用户行为分析面面观之一
- Eclipse Community Survey 2012
- R:导入其他样式数据的方法
- 用美图秀秀批量修改图像尺寸分辨率大小、批量修改名字
- asp.net2.0(C#)图像处理类[转]
- 区块链与区块链平台的工作流程
- 【图】爱情公寓里你最喜欢谁?爱情公寓3的投票,快来参加哦。
- inno setup将exe应用打包成——安装包
- 【转】开放性金融中的超流动性抵押链
- 《R语言与数据挖掘》③-①使用R语言进行中文分词
- Mixed Content: The page was loaded over HTTPS,blocked the content must be served over HTTPS.
- firebox插件使用笔记
- win10关闭了微软服务器,win10自带安全软件怎么关闭|win10关闭自带杀毒软件的两种方法...
- 折半查找法(二分法)流程图