tesseract的安装使用及配置问题解决

  • 一、安装tesseract
  • 二、配置环境变量
  • 三、cmd方式中出现的问题及解决方法
  • 四、 pycharm方式中出现的问题及解决办法
  • 五、验证结果

一、安装tesseract

  • 1 OCR,即Optical Character Recognition:光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
  • 2 tesseract下载地址
https://digi.bib.uni-mannheim.de/tesseract/
  • 3 如下图所示,将下载之后的.exe文件进行安装。.
  • 4 在安装的过程中,安装的路径一般是:
    C:\Program Files (x86)\Tesseract-OCR,可以不用修改。
  • 5 然后一直点击next,直到下面下面这张图。此时可以勾选**Additional language data(download)**选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,比如可以选择math,英文,中文等。然后一路点击Next按钮即可。

二、配置环境变量

  • 1 为了在全局使用方便,比如安装路径为:
    C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中。

  • 2 路径:高级系统设置——>环境变量——>系统变量中path路径——>将C:\Program Files (x86)\Tesseract-OCR添加进去。



  • 3 配置完成后在cmd中输入tesseract -v,如果出现如下图所示,说明环境变量配置成功。

三、cmd方式中出现的问题及解决方法

  • 1 下面,将在cmd中使用tesseract来进行文字的识别。
  • 2 从网上随便找了一张英语图片,如下图所示。
  • 3 将该图片命名为image1.jpg,然后放在G盘里面。然后使用cmd先到G盘,然后使用tesseract命令进行测试。
tesseract image1.jpg result

这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。

  • 4 输入上述代码回车后,出现了以下的报错提示。
Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
  • 5 报错是意思是缺少环境变量TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。解决的方法也很简单,在环境变量——>系统变量中添加TESSDATA_PREFIX,如下图:
    注(地址复制时是右斜杠 “\”,但是需要改成 左斜杠"/" 符号,如下图划红线处)
  • 6 配置完成后,重新打开cmd,即可正常使用。
  • 7 验证结果:
    如下图所示,使用cmd进行验证。

四、 pycharm方式中出现的问题及解决办法

  • 1 为了在pycharm代码中使用tesseract功能,使用pip安装pytesseract:在pycharm中pip下面语句。
pip install pytesseract
  • 2将图片放入pycharm所建的工程文件夹下
  • 3 利用代码来测试,在pycharm中运行如下代码,这里就需要借助于pytesseract库了,测试代码如下:
from PIL import Image
import pytesseracttext = pytesseract.image_to_string(Image.open("image1.jpg"))
print(text)

首先利用Image读取了图片文件,然后调用了pytesseract的image_to_string()方法,再将其识别结果输出。

  • 4 但是却出现了以下类似的错误。
Traceback (most recent call last):File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 170, in run_tesseractproc = subprocess.Popen(cmd_args, **subprocess_args())File "D:\Python36\lib\subprocess.py", line 709, in __init__restore_signals, start_new_session)File "D:\Python36\lib\subprocess.py", line 997, in _execute_childstartupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。During handling of the above exception, another exception occurred:Traceback (most recent call last):File "D:/python/20180911.py", line 4, in <module>text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 294, in image_to_stringreturn run_and_get_output(*args)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 202, in run_and_get_outputrun_tesseract(**kwargs)File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 172, in run_tesseractraise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
  • 5 解决方法:
    pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,在文件夹中找到pytesseract.py,使用记事本之类软件打开pytesseract.py,找到如下:
tesseract_cmd = 'tesseract'
  • 6 将tesseract_cmd = 'tesseract’修改为:
    tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’
    (注意左斜杠和右斜杠)

    表示tesseract_cmd配置的是你安装tesseract的绝对路径,这样就能找到tesseract了。修改后保存,再去运行python代码,就可以成功了。
  • 7 验证结果:

五、验证结果

  • 1,在验证的过程中,发现英文字母的识别率比较高,中文的会有些问题。
  • 2,注意配置完成后,关机重启,或者关闭cmd重新打开试试。
  • 3,每个人的电脑都或多或少的不一样,可能按照这种方式进行修改之后依旧不能运行。我在配置自己电脑的时候,也看了很多帖子,配置了好几遍,总是感觉很玄学,多多尝试。

tesseract的安装使用及配置问题解决相关推荐

  1. tesseract库安装与配置环境变量(识别字幕)

    一.准备 1.首先,需要安装对应版本的tesseract-ocr应用 Windows的下载地址https://digi.bib.uni-mannheim.de/tesseract 在D盘建立文件夹Te ...

  2. linux上升级tesseract,linux 安装Tesseract-OCR

    linux 安装Tesseract-OCR 准备工作: 一.编译环境: 1. gcc gcc-c++ make(这个环境一般机器都具备,可以忽略) yum install gcc gcc-c++ ma ...

  3. wamp2 php配置,wamp安装后自定义配置的方法

    WampServer是目前应用非常广泛的PHP集成开发环境,本文就来讲述Wamp安装后自定义配置的方法.供大家参考借鉴.具体如下: wamp2.5安装完毕后,自己手动重新设置了apache的默认根目录 ...

  4. PCL安装和环境配置

    目录 1. VS2017下载安装 2. PCL下载安装 3. 环境配置 附上链接库列表 4. 测试 5.问题解决 1. VS2017下载安装 微软官网下载链接:https://visualstudio ...

  5. tesseract的安装

    目录 tesseract的安装 1.1下载tesseract 1.2安装tesseract 1.3配置环境变量 1.4测试 tesseract的安装 1.1下载tesseract 在https://d ...

  6. 浅谈Ubuntu 18.04.1 LTS x86_64安装,美化配置及常用软件安装配置的历程

    浅谈Ubuntu 18.04.1 LTS x86_64安装,美化及常用软件安装配置的历程 这几天入坑Ubuntu,本着双系统来的却不小心把Windows玩崩了.期间各种问题各种坑,查阅了很多文章来解决 ...

  7. 超级账本Fabric 2.x 详细安装步骤及可能问题解决方式

    超级账本Fabric 2.x 详细安装步骤及可能问题解决方式 使用系统版本:Ubuntu 18.04 提示1:任何命令错误都可以试试加sudo提升权限!!! 提示2:如果Ubuntu系统没有换源可以参 ...

  8. Windows 10安装Docker以及配置镜像加速

    Windows 10安装Docker以及配置镜像加速 一 环境检查 1.1 检查是否开启虚拟化 1.2 开启Hyper-V服务 二 下载安装Docker 2.1 安装前配置安装目录 2.2 进入阿里云 ...

  9. win10安装MySQL步骤与问题解决方法

    win10安装MySQL步骤与问题解决方法 1 官网下载:https://downloads.mysql.com/archives/community/ 选择下载版本 2解压(以mysql_5_7_3 ...

最新文章

  1. 基于c语言优先级病房呼叫_C语言
  2. 《数学之美》第9章 图论和网络爬虫
  3. 解决mantis不能上传附件问题
  4. 关于AIX lv 4k offset问题初步了解
  5. 百炼OJ:2750:鸡兔同笼
  6. 在CRM呼叫中心的搜索结果点击Edit按钮后的处理逻辑
  7. 将虚拟主机加入到netskills.net域环境_网站建设阿里云虚拟主机、ECS服务器、企业邮箱选择购买指南...
  8. linux命令-vim命令模式
  9. 前端学习(2269)vue造轮子之添加icon
  10. python3装饰器例子_Python装饰器几个有用又好玩的例子
  11. ComponentOne Ultimate 2012 v2 新特性
  12. Tilemill + tilestream + mapbox.js 自制地图
  13. 在windows7中安装了office了
  14. Raspberry Pi (树莓派)折腾记之一
  15. vscode 力扣插件
  16. 002_SSSS_ Denoising Diffusion Implicit Models
  17. 宇宙APP简单的性能测试
  18. 健身的基本知识(1)
  19. Lodop云打印控件使用
  20. 再说Mdx的字典文件处理

热门文章

  1. C程序设计的抽象思维 pdf
  2. 大白话5分钟带你走进人工智能-第九节梯度下降之函数最优化算法和梯度下降代码过程解析(4)
  3. 给大伙儿介绍一个好用的数据库软件软件
  4. 一个在线装逼神器,装逼就是这么简单
  5. 将一个超出byte范围的值转为byte的方法
  6. html5小游戏猴子爬树源码,《猴子爬树》中班教案
  7. 如何用大数据驱动开一家赚钱的奶茶店
  8. C#中的PerformanceCounter类
  9. PerformanceCounter获取的CPU使用率但总是0
  10. 数据仓库面试题-数仓-五