tesseract 提升识别质量
1.图像处理
tesseract内置了一些图像处理方法(基于leptonica library)。
如果我们想要观察tesseract如何处理图片可以将tessedit_write_images
变量设置为true。
改变尺度
tesseract默认dpi是300,最好把图片的dpi设置为300
二值化
将图片二值化,tesseract虽然内置了改方法,但是可能结果并不理想,所以最好在ocr之前先进行二值化。使用pillow。
二值化的作用是去掉噪声,比如黑点或者颜色。
旋转/抗扭斜
将倾斜的文章旋转称垂直。
除边界
2.页面分割方法
默认的tesseract将一个图片当成一个文档来看。如果只需要指定的区域可以使用不同的分割模式,使用psm参数。
0 Orientation and script detection (OSD) only.1 Automatic page segmentation with OSD.2 Automatic page segmentation, but no OSD, or OCR.3 Fully automatic page segmentation, but no OSD. (Default)4 Assume a single column of text of variable sizes.5 Assume a single uniform block of vertically aligned text.6 Assume a single uniform block of text.7 Treat the image as a single text line.8 Treat the image as a single word.9 Treat the image as a single word in a circle.10 Treat the image as a single character.11 Sparse text. Find as much text as possible in no particular order.12 Sparse text with OSD.13 Raw line. Treat the image as a single text line,bypassing hacks that are Tesseract-specific.
3.词典,单词列表和模式
默认的tesseract尽可能识别普通的句子。如果想要识别
收入,价格或者代码等则需要以下步骤
1.选择合适的分割方法。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method
2.禁用字典。如果我们需要识别的字符大多不是字典单词。通过将load_system_dawg
和load_freq_dawg
设置为false
。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
3.将词语店家到词语列表,将提升Tesseract的识别准确率,或者添加字符模式。参考
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data
4.如果只想识别语料库中的一部分字符,比如只需要识别数字,则可以设置tessedit_char_whitelist
参数。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
参考文献:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
https://blog.csdn.net/hechaojie_com/article/details/81560153
tesseract 提升识别质量相关推荐
- IJCAI 2019 | 通过交互提升机器翻译质量
自从神经网络模型在机器翻译任务(Machine Transoformer,MT)得到了应用,该任务得到了飞速的发展,机器翻译的质量也在不断地提高.尽管如此,机器翻译的质量也难以与人类译者相提并论.但是 ...
- 自媒体关键词布局怎么做,快速提升文章质量?
自媒体人如何提升文章质量?应该怎样堆积关键词呢?很多小伙伴经常说,感觉自己文章质量不过关,文章的阅读量一直上不去,有没有什么提升的办法,今天就给大家介绍一下,自媒体关键词布局怎么做,让你快速提升文章质 ...
- 华为如何生成日志_华为应用市场AppGallery Connect开发者沙龙:全面提升应用质量...
在繁多设备类型.机型.系统下,在复杂的网络环境下,在多样用户群和使用场景下,常规测试无法解决所有真实环境中的问题.应用发布后,发生崩溃和性能问题非常影响用户的体验.为了更高效地发现和解决问题,华为应用 ...
- android注解的作用,Android 用注解来提升代码质量
Android 用注解来提升代码质量 Android,注解,annotation 2018.07.13 Android 提供了一个注解的 support 包,这个注解包配合 IDE 可以用来提升我的代 ...
- 12种提升视频质量的方法
点击上方"LiveVideoStack"关注我们 翻译.编辑 | Alex 技术审校 | 章琦 本文来自OTTVerse,作者为Krishna Rao Vijayanagar. ...
- python代码标识码_代码分享:使用Python和Tesseract来识别图形验证码
原标题:代码分享:使用Python和Tesseract来识别图形验证码 *本文原创作者:ipenox,本文属FreeBuf原创奖励计划,未经许可禁止转载 各位在企业中做Web漏洞扫描或者渗透测试的朋友 ...
- 企业如何提升数据质量
在这个大数据时代,数据资产逐渐成了构成成企业核心竞争力的关键要素,然后,大数据的应用必须建立在高质量的数据上才有意义,因此提供数据质量是企业需要迅速解决的问题,那么企业如果提升数据质量? 数据质量一般 ...
- python应用内部审计_基于大数据技术提升内部审计质量的路径
龙源期刊网 http://www.qikan.com.cn 基于大数据技术提升内部审计质量的路径 作者:彭德锦 方智 来源:<中国内部审计> 2019 年第 07 期 [ 摘要 ] 随着大 ...
- 百家号自媒体如何提升文章质量,百家号怎么写好文章,百家号写文章技巧
2018年是自媒体时代,内容爆发的时代,依然是内容为王的时代,标题决定打开率,内容决定转发,只要你的内容质量足够好,就会吸引粉丝的关注.百家号文章如何提升内容质量,可以从以下几点出发,认真做好每一点. ...
最新文章
- StereoDRNet:基于stereo的三维重建网络
- 服务器弱口令修改,Tomcat服务器弱口令漏洞攻击实验
- 什么可以作为gcroot_面包果既能当水果又可以作为粮食,国内却无法普及,这是为什么?...
- java web访问webroot_java web 之 WebRoot和WebContent目录
- Fabric 报错:java.lang.IllegalArgumentException: UserContext user‘s name missing.
- 实现option上下移动_JS实现Select的option上下移动的方法
- Oracle 12c 安装及配置
- php 替换 tab,PHP 删除字符串中的空格和换行符终极方法 - 文章教程
- 一款iPhone App推广中得来的18条经验教训
- 中兴获25个5G商用合同
- SQL 2005 Beta2 和VS 2005 Beta1安装的问题
- mac安装win7之后鼠标失灵_2013款mac air及一体机安装win7 键盘鼠标失灵的解决方法...
- vue系列教程之微商城项目|项目介绍
- hdu 4009 Transfer water(最小树形图模板)
- MAP(Maximum A Posteriori,最大后验准则)算法
- 使用NHibernate 3.2实现Repository(ORuM)(三)NHibernate、Mapping、Mapping-By-Code
- 使用andorid源生生成pdf的坑
- 推荐一款带分销的小程序商城?
- app毕业设计题目基于Uniapp+SSM实现的android在线餐饮餐厅订餐点餐系统
- 假期福利 | 林轩田《机器学习基石》资源汇总
热门文章
- Python生成CSV文件模拟某小区用户手机通话记录
- python socket connection_Python socket.create_connection方法代码示例
- python写安卓app控制蓝牙_Python脚本利用adb进行手机控制的方法
- flowable 多人签收_业务流程 BPM、工作流引擎、Flowable、Activiti
- 周末ROS学习沙龙第一期——ROS历史、安装、消息话题节点服务等概念、SLAM导航框架及参数、小车上运行SLAM
- C++之指针探究(四):指针和二维数组
- C++之操作符重载探究(七):==运算符重载
- C++《STL和泛型编程》算法accumulate、for_each、sort简单使用例子
- leanote 支持php,Leanote source leanote源码导读
- java spring 面向切面编程_Spring Boot实战系列(3)AOP面向切面编程