一直以来,图片识别对我来说是很高深的东西,一直未曾涉猎,有幸在Python是了解到TesseractOCR,终于有个系统的了解,这个能做什么,那就太多了,验证码识别、车牌识别、证件识别等等。

目录

软件的特点

软件的安装

命令行测试

强大在于可以学习

学习工具jTessBoxEditor

Tesseract训练


软件的特点

一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

软件的安装

源码地址为:https://github.com/tesseract-ocr/tesseract

EXE可执行文件下载地址(4.0.0):TesseractOCRV4.0.0图片识别-Python工具类资源-CSDN下载

EXE安装步骤及注意:(下载后默认双击安装)

上方可以选择其他语言,支持几十种语言,我选择的是第一个和中文简体及繁体,默认英文是自动安装的。

由于选择了其他语言,所以会多出这个下载,你也可以不选,但选择的话需要联网下载(中文简体:>40M,繁体:>50M)。

命令行测试

别人的文章说安装完会自动加入环境变量,我安装后并未加入,直接切换到安装目录(建议手动加入到环境变量),直接执行:tesseract,显示下图表示安装完成:

准备一张图片如:test.png (如下图),我设置了环境变量,并将这个图片放到D盘根目录。

打开D盘生成的output_1.txt发现:162408

遗憾,我上图用的是另一博客的图,他是3.x版本,6识别成了5,4.0我也安装了math包直接就识别出来了。

强大在于可以学习

学习工具jTessBoxEditor

配套训练工具 jTessBoxEditor 来训练样本,特别用于验证码的识别。

Tesseract训练

训练的思路是:1、安装jTessBoxEditor > 2、获取样本文件 > 3、Merge合并样本文件 > 4、生成Box文件 > 5、定义字符配置文件 > 6、字符矫正 > 7、执行批处理文件 > 8、将生成的trainegddata放入tessdata中。

总结:根据范本生成一个语言包,转换时可指定这个语言包即可。

 理工男(作者)自己的公众号:

        一个理工男的成长之路,如果你是理工男,带你“不正经”;如果你想了解理工男,带你认识理工男,他们是生活百事通,他们的生活简约而不简单。

不正经的原则:合规合法,信息保真能看懂,字越少事越大,学到真东西享受真实惠,有兴趣加入我一起“不正经”。

图片识别 - TesseractOCR相关推荐

  1. java+Tesseract-OCR实现图片识别

    1.今天和同事研究如何用java实现图片识别.百度上大部分都是用tesseract去实现的.所以就做了一个demo (1).首先下载Tesseract-OCR 3.02,以及中文包chi_sim.tr ...

  2. tesseract-ocr 实现图片识别功能

    不久前因为项目需要,接触了一下关于图像识别的相关内容,比如Tesseract,这里就在这里分享下. 1.Tesserac-ocr简介 [一个Google支持的开源的OCR图文识别开源项目.去持多语言( ...

  3. Python实现图片识别加翻译,高薪必备技能

    Python使用百度AI接口实现图片识别加翻译 python python诞生30周年 encoding:utf-8 import requests import base64 from PIL im ...

  4. iOS--OCR图片识别

    应公司财务需求,要做一个收据识别功能.所以在网上搜索了下三方SDK,其中tesseract-ocr受到了大多数网友的推荐.我当然是前往https://github.com/gali8/Tesserac ...

  5. python 图片识别_python识别图片文字

    滑稽研究所 python识别图片文字 哈喽,大家好呀,我是滑稽君.大家在写论文时可能经常碰到无法复制文字的文章.明明找到了需要的内容却无法直接复制使用,这让我们十分苦恼.那么本期滑稽君就告诉大家如何使 ...

  6. python做图像识别该学什么_Python实现图片识别加翻译【高薪必学】

    Python使用百度AI接口实现图片识别加翻译 另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字 ...

  7. python 图片识别_Python—识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  8. python 识图点击_Python图片识别——人工智能篇

    一.安装pytesseract和PIL PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力. 由于PIL仅支 ...

  9. 翻译app上的图片文字信息提取好神奇?如何实现一个文字图片识别程序

    web文字图片识别程序开发 摘要 一.tesseract-ocr介绍 二.安装tesseract 三.使用命令行 四.程序实现(Python) 五.程序实现(Java) 六.实验测试 七.总结 摘要 ...

最新文章

  1. 63、使用Timer类来实现定时任务
  2. iOS6全系列设备完美越狱工具发布
  3. 大数据与 AI 生态中的开源技术总结
  4. 一些VC++ 系统类通用类
  5. PMCAFF问答精选 | 程序员转型产品经理真的明智吗?
  6. C++ 流操作符重载函数
  7. DSP学习 -- cJSON使用教程
  8. SpringBoot启动时就会自动去连接mongdo DB指向的url
  9. Scapy:局域网MAC地址扫描脚本
  10. host 'xx' is not allowed to connect to this MySql server
  11. 发布服务器 bugzilla, streber 数据库备份方案
  12. Codeforces Round #617 (Div. 3) String Coloring(E1.E2)
  13. 【吊炸天】TensorFlow什么的都弱爆了,强者只用Numpy搭建神经网络
  14. linux nload_Linux nload命令
  15. Windows下ant环境搭建
  16. 带你初步了解生物网络分析
  17. OrCAD中PSpice K_Linear以及变压器的使用方法
  18. EDA技术(VHDL)——0~9999的计数器电路的设计
  19. win10安装mongoDB
  20. Android 应用(8)——使用Ubuntu制作APP签名文件并对应用签名

热门文章

  1. 混子科研狗 组会日记(2022.3.16)
  2. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java垃圾回收系统j16l0
  3. 开卷有益:黑莓知识库之BlackBerry Technical Solution Center
  4. 【RPA】机器人流程自动化(RPA)概念、原理与实践
  5. 制作自己的openwrt刷机包_OpenWrt简要刷机教程
  6. 残差网络resnet详解
  7. 软件开发架构模式浅谈:一些思考和实践记录
  8. 基于Android开发的医疗系统项目开发实战案例
  9. virustotal 出现PUP.HighConfidence
  10. 苏宁Spring Cloud微服务脚手架工具vole实践分享