图片识别 - TesseractOCR
一直以来,图片识别对我来说是很高深的东西,一直未曾涉猎,有幸在Python是了解到TesseractOCR,终于有个系统的了解,这个能做什么,那就太多了,验证码识别、车牌识别、证件识别等等。
目录
软件的特点
软件的安装
命令行测试
强大在于可以学习
学习工具jTessBoxEditor
Tesseract训练
软件的特点
一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
软件的安装
源码地址为:https://github.com/tesseract-ocr/tesseract
EXE可执行文件下载地址(4.0.0):TesseractOCRV4.0.0图片识别-Python工具类资源-CSDN下载
EXE安装步骤及注意:(下载后默认双击安装)
上方可以选择其他语言,支持几十种语言,我选择的是第一个和中文简体及繁体,默认英文是自动安装的。
由于选择了其他语言,所以会多出这个下载,你也可以不选,但选择的话需要联网下载(中文简体:>40M,繁体:>50M)。
命令行测试
别人的文章说安装完会自动加入环境变量,我安装后并未加入,直接切换到安装目录(建议手动加入到环境变量),直接执行:tesseract,显示下图表示安装完成:
准备一张图片如:test.png (如下图),我设置了环境变量,并将这个图片放到D盘根目录。
打开D盘生成的output_1.txt发现:162408
遗憾,我上图用的是另一博客的图,他是3.x版本,6识别成了5,4.0我也安装了math包直接就识别出来了。
强大在于可以学习
学习工具jTessBoxEditor
配套训练工具 jTessBoxEditor 来训练样本,特别用于验证码的识别。
Tesseract训练
训练的思路是:1、安装jTessBoxEditor > 2、获取样本文件 > 3、Merge合并样本文件 > 4、生成Box文件 > 5、定义字符配置文件 > 6、字符矫正 > 7、执行批处理文件 > 8、将生成的trainegddata放入tessdata中。
总结:根据范本生成一个语言包,转换时可指定这个语言包即可。
理工男(作者)自己的公众号:
一个理工男的成长之路,如果你是理工男,带你“不正经”;如果你想了解理工男,带你认识理工男,他们是生活百事通,他们的生活简约而不简单。
不正经的原则:合规合法,信息保真能看懂,字越少事越大,学到真东西享受真实惠,有兴趣加入我一起“不正经”。
图片识别 - TesseractOCR相关推荐
- java+Tesseract-OCR实现图片识别
1.今天和同事研究如何用java实现图片识别.百度上大部分都是用tesseract去实现的.所以就做了一个demo (1).首先下载Tesseract-OCR 3.02,以及中文包chi_sim.tr ...
- tesseract-ocr 实现图片识别功能
不久前因为项目需要,接触了一下关于图像识别的相关内容,比如Tesseract,这里就在这里分享下. 1.Tesserac-ocr简介 [一个Google支持的开源的OCR图文识别开源项目.去持多语言( ...
- Python实现图片识别加翻译,高薪必备技能
Python使用百度AI接口实现图片识别加翻译 python python诞生30周年 encoding:utf-8 import requests import base64 from PIL im ...
- iOS--OCR图片识别
应公司财务需求,要做一个收据识别功能.所以在网上搜索了下三方SDK,其中tesseract-ocr受到了大多数网友的推荐.我当然是前往https://github.com/gali8/Tesserac ...
- python 图片识别_python识别图片文字
滑稽研究所 python识别图片文字 哈喽,大家好呀,我是滑稽君.大家在写论文时可能经常碰到无法复制文字的文章.明明找到了需要的内容却无法直接复制使用,这让我们十分苦恼.那么本期滑稽君就告诉大家如何使 ...
- python做图像识别该学什么_Python实现图片识别加翻译【高薪必学】
Python使用百度AI接口实现图片识别加翻译 另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字 ...
- python 图片识别_Python—识别图片中的文字
一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...
- python 识图点击_Python图片识别——人工智能篇
一.安装pytesseract和PIL PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力. 由于PIL仅支 ...
- 翻译app上的图片文字信息提取好神奇?如何实现一个文字图片识别程序
web文字图片识别程序开发 摘要 一.tesseract-ocr介绍 二.安装tesseract 三.使用命令行 四.程序实现(Python) 五.程序实现(Java) 六.实验测试 七.总结 摘要 ...
最新文章
- 63、使用Timer类来实现定时任务
- iOS6全系列设备完美越狱工具发布
- 大数据与 AI 生态中的开源技术总结
- 一些VC++ 系统类通用类
- PMCAFF问答精选 | 程序员转型产品经理真的明智吗?
- C++ 流操作符重载函数
- DSP学习 -- cJSON使用教程
- SpringBoot启动时就会自动去连接mongdo DB指向的url
- Scapy:局域网MAC地址扫描脚本
- host 'xx' is not allowed to connect to this MySql server
- 发布服务器 bugzilla, streber 数据库备份方案
- Codeforces Round #617 (Div. 3) String Coloring(E1.E2)
- 【吊炸天】TensorFlow什么的都弱爆了,强者只用Numpy搭建神经网络
- linux nload_Linux nload命令
- Windows下ant环境搭建
- 带你初步了解生物网络分析
- OrCAD中PSpice K_Linear以及变压器的使用方法
- EDA技术(VHDL)——0~9999的计数器电路的设计
- win10安装mongoDB
- Android 应用(8)——使用Ubuntu制作APP签名文件并对应用签名
热门文章
- 混子科研狗 组会日记(2022.3.16)
- 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java垃圾回收系统j16l0
- 开卷有益:黑莓知识库之BlackBerry Technical Solution Center
- 【RPA】机器人流程自动化(RPA)概念、原理与实践
- 制作自己的openwrt刷机包_OpenWrt简要刷机教程
- 残差网络resnet详解
- 软件开发架构模式浅谈:一些思考和实践记录
- 基于Android开发的医疗系统项目开发实战案例
- virustotal 出现PUP.HighConfidence
- 苏宁Spring Cloud微服务脚手架工具vole实践分享