c 语言识别图片中的文字,Tesseract OCR图片识别为文字

1 场景

识别图片中的文字(识别图片中的电话号码、姓名等)

2 方案

使用Tesseract OCR软件来识别图片内容

来自官方解释：

这个包包含一个OCR引擎- libtesseract和一个命令行程序- tesseract

Tesseract支持各种输出格式:纯文本、hOCR (HTML)、PDF、不可见的纯文本PDF、TSV。主分支还实验性地支持ALTO (XML)输出。

3 windows下安装

3.1 安装

下载官网：

下载文件：

安装路径：

D:\Program Files\Tesseract-OCR

将OCR安装路径，添加到环境变量

查看当前安装版本如下：

C:\Users\admin>tesseract -v

tesseract v4.0.0.20190314

leptonica-1.78.0

libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0

Found AVX2

Found AVX

Found SSE

3.2 中文训练集

有训练集文件，才可进行图片上的文字识别。

默认有英文训练集，可以识别图片中的英文，训练集路径如下：

D:\Program Files\Tesseract-OCR\tessdata\eng.traineddata

命令行输入tesseract --list-langs命令查看当前已按照语言包：

C:\Users\admin>tesseract --list-langs

List of available languages (2):

eng

osd

将下载的简体中文训练集文件chi_sim.traineddata，拷贝到tessdata路径下：

D:\Program Files\Tesseract-OCR\tessdata\

再次查看，支持语言，可见已支持简体中文chi_sim：

C:\Users\admin>tesseract --list-langs

List of available languages (3):

chi_sim

eng

osd

3.3 识别图片

基本语法命令：

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

如执行以下命令，选择语言为简体中文(默认为英文)：

tesseract myOcrTest.png res -l chi_sim

执行结果如下：

D:\tmp\orcTest02>tesseract myOcrTest.png res -l chi_sim

Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica

将在同级目录下生成文件res.txt，文件内容如下：

文字识别测试 123ceshi

同测试图片一致。

注意，解析结果将多生成一行，返回解析结果时，需去掉最后一行。

3.3 查看帮助

D:\tmp\orcTest02>tesseract --help

Usage:

tesseract --help | --help-extra | --version

tesseract --list-langs

tesseract imagename outputbase [options...] [configfile...]

OCR options:

-l LANG[+LANG] Specify language(s) used for OCR.

NOTE: These options must occur before any configfile.

Single options:

--help Show this help message.

--help-extra Show extra help for advanced users.

--version Show version information.

--list-langs List available languages for tesseract engine.

c 语言识别图片中的文字,Tesseract OCR图片识别为文字相关推荐

OCR图片识别文字源码(支持多国文字识别)
OCR图片识别文字源码(支持多国文字识别) 程序员帮帮
阿里云OCR图片识别
阿里云OCR图片识别请求参数(Body) 请求示例(java) 正常返回示例错误码定义阿里云OCR图片识别: 单字识别,表格识别,旋转功能准备条件:阿里云OCR图片识别API购买,初次购买1分 ...
[批量重命名工具] 批量图片识别文字来命名文件名，很多网友想看批量图片识别成文字，用图片上的文字来修改文件名，今天它来了
很多网友想看批量图片识别成文字,用图片上的文字来修改文件名,今天他来了因为不解决就得手动挨个挨个输入然后把文件命名好今天又一个文件需求是这样的图上有姓名文字,要识别出来改成每一张图跟这个一样,有 ...
怎样将图片识别成文字？2招教你图片转成Word
大部分时候我们为了方便都会用拍照或截图的方式快速获取并保存一些资料,但这样的偷懒方法最终都要落实到文字才能便于修改整理,所以如何才能将图片识别成文字呢?教你2种快速将图片转换成Word文档的方法. 一 ...
iOS实践：OpenCV、Tesseract OCR结合识别图片中文字
前言: 前天领导问,类似扫描文件识别图中文字的功能如何实现,找一下第三方的开源库,尝试下,于是有了这篇文章: 分析: 识别场景中,识别身份证信息当属典型,查阅了几篇文章,后续的实现中也多导入了其代码: ...
Tesseract OCR图片提取中文并转换为Excel的示例（附Python代码）
1.背景描述: 日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据.文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理. 2.流程简述: 识 ...
ocr图片识别文字工具笔记(包括汉王)
文章目录场景解决方案 onenote 某昕(xin) pdf编辑器某讯优图开放平台(推荐) 某里ocr识别某度ocr识别某王pdf ocr识别其他 ocr是什么场景网上有些代码考题是图 ...
php怎么在图像中显示文字,怎么在图片上面加文字人物图片中加文字或特效
这是一个拍照和自拍的年代,照片处理也就成为后期常做的事了.很多人都会先把照片处理得美美的,再传网上晒照.你知道如何在人物图片上添加闪烁的文字做成GIF动态图片么?常有在人物图片加动态说明文字或特效以渲 ...
Tesseract-OCR图片识别为文字
文章目录 1 场景 2 方案 3 windows下安装 3.1 安装 3.2 中文训练集 3.3 识别图片 3.3 查看帮助 1 场景识别图片中的文字(识别图片中的电话号码.姓名等) 2 方案使用 ...
python图片转文字easyocr_将图片转换成文字就是这么简单
将图片转换成文字就是这么简单将图片转换成文字在没有文字识别软件的时候可能会比较的麻烦,但是现在有很多的文字识别软件,所以想要将图片转换成文字不是事儿.找到OCR文字识别软件将图片转换成Word文字就 ...

c 语言识别图片中的文字,Tesseract OCR图片识别为文字

c 语言识别图片中的文字,Tesseract OCR图片识别为文字相关推荐

最新文章

热门文章