1.图像处理

tesseract内置了一些图像处理方法(基于leptonica library)。
如果我们想要观察tesseract如何处理图片可以将tessedit_write_images变量设置为true。

改变尺度

tesseract默认dpi是300,最好把图片的dpi设置为300

二值化

将图片二值化,tesseract虽然内置了改方法,但是可能结果并不理想,所以最好在ocr之前先进行二值化。使用pillow。

二值化的作用是去掉噪声,比如黑点或者颜色。

旋转/抗扭斜

将倾斜的文章旋转称垂直。

除边界

2.页面分割方法

默认的tesseract将一个图片当成一个文档来看。如果只需要指定的区域可以使用不同的分割模式,使用psm参数。

  0    Orientation and script detection (OSD) only.1    Automatic page segmentation with OSD.2    Automatic page segmentation, but no OSD, or OCR.3    Fully automatic page segmentation, but no OSD. (Default)4    Assume a single column of text of variable sizes.5    Assume a single uniform block of vertically aligned text.6    Assume a single uniform block of text.7    Treat the image as a single text line.8    Treat the image as a single word.9    Treat the image as a single word in a circle.10    Treat the image as a single character.11    Sparse text. Find as much text as possible in no particular order.12    Sparse text with OSD.13    Raw line. Treat the image as a single text line,bypassing hacks that are Tesseract-specific.

3.词典,单词列表和模式

默认的tesseract尽可能识别普通的句子。如果想要识别
收入,价格或者代码等则需要以下步骤
1.选择合适的分割方法。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

2.禁用字典。如果我们需要识别的字符大多不是字典单词。通过将load_system_dawgload_freq_dawg设置为false
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
3.将词语店家到词语列表,将提升Tesseract的识别准确率,或者添加字符模式。参考
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data
4.如果只想识别语料库中的一部分字符,比如只需要识别数字,则可以设置tessedit_char_whitelist参数。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

参考文献:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
https://blog.csdn.net/hechaojie_com/article/details/81560153

tesseract 提升识别质量相关推荐

  1. IJCAI 2019 | 通过交互提升机器翻译质量

    自从神经网络模型在机器翻译任务(Machine Transoformer,MT)得到了应用,该任务得到了飞速的发展,机器翻译的质量也在不断地提高.尽管如此,机器翻译的质量也难以与人类译者相提并论.但是 ...

  2. 自媒体关键词布局怎么做,快速提升文章质量?

    自媒体人如何提升文章质量?应该怎样堆积关键词呢?很多小伙伴经常说,感觉自己文章质量不过关,文章的阅读量一直上不去,有没有什么提升的办法,今天就给大家介绍一下,自媒体关键词布局怎么做,让你快速提升文章质 ...

  3. 华为如何生成日志_华为应用市场AppGallery Connect开发者沙龙:全面提升应用质量...

    在繁多设备类型.机型.系统下,在复杂的网络环境下,在多样用户群和使用场景下,常规测试无法解决所有真实环境中的问题.应用发布后,发生崩溃和性能问题非常影响用户的体验.为了更高效地发现和解决问题,华为应用 ...

  4. android注解的作用,Android 用注解来提升代码质量

    Android 用注解来提升代码质量 Android,注解,annotation 2018.07.13 Android 提供了一个注解的 support 包,这个注解包配合 IDE 可以用来提升我的代 ...

  5. 12种提升视频质量的方法

     点击上方"LiveVideoStack"关注我们 翻译.编辑 | Alex 技术审校 | 章琦 本文来自OTTVerse,作者为Krishna Rao Vijayanagar. ...

  6. python代码标识码_代码分享:使用Python和Tesseract来识别图形验证码

    原标题:代码分享:使用Python和Tesseract来识别图形验证码 *本文原创作者:ipenox,本文属FreeBuf原创奖励计划,未经许可禁止转载 各位在企业中做Web漏洞扫描或者渗透测试的朋友 ...

  7. 企业如何提升数据质量

    在这个大数据时代,数据资产逐渐成了构成成企业核心竞争力的关键要素,然后,大数据的应用必须建立在高质量的数据上才有意义,因此提供数据质量是企业需要迅速解决的问题,那么企业如果提升数据质量? 数据质量一般 ...

  8. python应用内部审计_基于大数据技术提升内部审计质量的路径

    龙源期刊网 http://www.qikan.com.cn 基于大数据技术提升内部审计质量的路径 作者:彭德锦 方智 来源:<中国内部审计> 2019 年第 07 期 [ 摘要 ] 随着大 ...

  9. 百家号自媒体如何提升文章质量,百家号怎么写好文章,百家号写文章技巧

    2018年是自媒体时代,内容爆发的时代,依然是内容为王的时代,标题决定打开率,内容决定转发,只要你的内容质量足够好,就会吸引粉丝的关注.百家号文章如何提升内容质量,可以从以下几点出发,认真做好每一点. ...

最新文章

  1. StereoDRNet:基于stereo的三维重建网络
  2. 服务器弱口令修改,Tomcat服务器弱口令漏洞攻击实验
  3. 什么可以作为gcroot_面包果既能当水果又可以作为粮食,国内却无法普及,这是为什么?...
  4. java web访问webroot_java web 之 WebRoot和WebContent目录
  5. Fabric 报错:java.lang.IllegalArgumentException: UserContext user‘s name missing.
  6. 实现option上下移动_JS实现Select的option上下移动的方法
  7. Oracle 12c 安装及配置
  8. php 替换 tab,PHP 删除字符串中的空格和换行符终极方法 - 文章教程
  9. 一款iPhone App推广中得来的18条经验教训
  10. 中兴获25个5G商用合同
  11. SQL 2005 Beta2 和VS 2005 Beta1安装的问题
  12. mac安装win7之后鼠标失灵_2013款mac air及一体机安装win7 键盘鼠标失灵的解决方法...
  13. vue系列教程之微商城项目|项目介绍
  14. hdu 4009 Transfer water(最小树形图模板)
  15. MAP(Maximum A Posteriori,最大后验准则)算法
  16. 使用NHibernate 3.2实现Repository(ORuM)(三)NHibernate、Mapping、Mapping-By-Code
  17. 使用andorid源生生成pdf的坑
  18. 推荐一款带分销的小程序商城?
  19. app毕业设计题目基于Uniapp+SSM实现的android在线餐饮餐厅订餐点餐系统
  20. 假期福利 | 林轩田《机器学习基石》资源汇总

热门文章

  1. Python生成CSV文件模拟某小区用户手机通话记录
  2. python socket connection_Python socket.create_connection方法代码示例
  3. python写安卓app控制蓝牙_Python脚本利用adb进行手机控制的方法
  4. flowable 多人签收_业务流程 BPM、工作流引擎、Flowable、Activiti
  5. 周末ROS学习沙龙第一期——ROS历史、安装、消息话题节点服务等概念、SLAM导航框架及参数、小车上运行SLAM
  6. C++之指针探究(四):指针和二维数组
  7. C++之操作符重载探究(七):==运算符重载
  8. C++《STL和泛型编程》算法accumulate、for_each、sort简单使用例子
  9. leanote 支持php,Leanote source leanote源码导读
  10. java spring 面向切面编程_Spring Boot实战系列(3)AOP面向切面编程