pytesseract是一款开源的图片文字识别库,能识别中文、英文等不少类型的语言,使用之前需要安装tesseract-ocr引擎,此引擎在windows、linux、macos上都能进行安装,(OCR,Optical Character Recognition,光学字符识别),安装完成后,对应安装pytesseract库,就能做简单的文字识别了,自带的文字类库,识别有时不准确,但是可以自己训练识别库。

“Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。

数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作 。”–百科

下边列举一下,如何在Centos7系统的环境下,搭建一个python的tesseract-ocr环境,并使用python进行简单的图片识别。

安装Tesseract-ocr,在github上有安装的网址,https://github.com/tesseract-ocr/tesseract/wiki,在Centos7上,使用最简单的yum进行安装,这种方式,需要保持互联网的连接,但是也不用编译源代码进行安装了。

//更新配置,添加tesseract的地址
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
//更新yum
yum update
//安装tesseract
yum install tesseract
//安装简体中文语言包
yum install tesseract-langpack-chi_sim

安装完引擎后,安装python的开发包,使用pip进行安装,安装命令是:

pip install pytesseract

简单的图片识别代码:

import pytesseract
from PIL import Image
#打开图片
image = Image.open('图片路径')
#将图片中的文字转换字符串
code = pytesseract.image_to_string(image, lang='chi_sim')
#输出字符串
print(code)

更多文章,请关注公众号

python开发:开源pytesseract文字识别相关推荐

  1. 使用python进行图片的文字识别

    使用python进行图片的文字识别 文章目录 使用python进行图片的文字识别 安装 Tesseract OCR 安装过程 配置系统的环境变量 安装python的第三方库 Pytesseract库 ...

  2. 使用python开发二维码识别功能、Docker镜像安装opencv-contrib-python、

    使用python开发二维码识别功能.Docker镜像安装opencv-contrib-python. 背景 开发二维码识别功能,使用到开源三方库opencv-contrib-python. 在使用do ...

  3. python常用的OCR文字识别与图片定位方式

    python常用的OCR文字识别与图片定位方式 前言 统一版本 更换pip源 1. Python调用百度文字识别ocr的实现方式 1.1 使用PyCharm安装依赖 baidu-aip chardet ...

  4. python百度paddle表格文字识别生成excel

    表格识别技术主要使用基于注意力机制的图片描述模型 RARE,整体流程如下图所示,对于其中的表格区域进行表格识别处理. 表格识别的难点主要在于表格结构的提取,以及将表格信息与 OCR 信息融合.整体流程 ...

  5. Python制作简易OCR文字识别系统

    前不久看了一篇"如何使用Python检测和识别车牌?"用OpenCV对输入图像进行预处理,用imutils将原始输入图像裁剪成所需的大小,用pytesseract将提取车牌字符转换 ...

  6. python百度云ocr文字识别软件_基于百度云的OCR识别(Python)

    2019年7月3日早上,在百度AI开发者大会上,一个来自山西的青年,将一瓶矿泉水浇在了同样来自山西的李彦宏身上. 可以回顾一下 https://b23.tv/av57665929/p1 ,着实让人一惊 ...

  7. python学习----网页图片文字识别(简单)

    在接触python后想对图片进行一些处理  python实现的代码很简单 但是关键在于一些包的导入 我使用的python 软件是 pycharm  可以在setting中去下载requests这个包 ...

  8. python 实现简单的文字识别

    近期学习python,无意中看到一个公众号上的文章,识别提取图片中的文字,实现方法是调用百度智能云平台提供的API接口,现记录下来,以备复习. 百度智能云平台简介:百度智能云是百度提供的公有云平台,于 ...

  9. python实现图像上传和文字识别

    1.安装python需要的包 (1).pip install pillow. (2).pip install pytesser3 (3).pip install pytesseract (4).pip ...

  10. python批量识别图片中文字_利用Python批量进行图片文字识别

    实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...

最新文章

  1. echarts 动态改变数据_Echarts的使用
  2. 统计学中的协方差矩阵(阵列信号基础)
  3. PostgresSQL生成UUID
  4. framework之Activity 生命周期解析(基于Android11源码)
  5. 【开发环境】Mac 安装 PyCharm 开发环境 ( 下载 PyCharm | 安装 PyCharm )
  6. 【设计模式】单一职责原则
  7. 利用接口做参数,写个计算器,能完成加减乘除运算。 (1)定义一个接口Compute含有一个方法int computer(int n, int m)。 (2)设计四个类分
  8. Android测试——如何捕获Windows系统的屏幕输入
  9. JUC 基础内容概述
  10. OFDM简介--OFDM的发送(1)
  11. 游戏开发--开源18---Volity|PhiloGL|impactJs|createjs|C...
  12. Shell 工具(cut)
  13. 【数据结构】范浩强Treap(非旋转平衡树)可持久化Treap总结
  14. C语言函数:even(n),fflush(stdin)
  15. 2021年茶艺师(初级)考试报名及茶艺师(初级)考试技巧
  16. php需要帮助搞域名吗,域名转向系统的实现_php
  17. 修改数据库安装的服务器 系统时间,修改数据库服务器的操作系统时间
  18. spotify歌曲下载_如何像真正的DJ一样让Spotify在歌曲之间进行淡入淡出
  19. org.elasticsearch.discovery.MasterNotDiscoveredException异常解决
  20. 怎么防止过曝_在拍摄的时候,要如何避免闪光灯过曝?

热门文章

  1. Base16 应用与原理解析
  2. 【NodeJs】NodeJs中base16转码
  3. 05、ADS使用记录之集总参数匹配
  4. java 播放h264_一个可以解码并实时播放H264的播放器
  5. 计算机中缺少d3dx11_43.dll,韩博士传授win10系统运行软件提示计算机丢失d3dx11_43.dll的处理对策...
  6. Vba_下载网络文件(图片)
  7. 基于GLBP协议的医院网络规划与设计 文档+申请表+任务书+开题报告+中期检查+文献综述+PPT+周进展+网络拓扑及配置
  8. 常用国家标准、行业标准、地方标准免费查阅网址,太实用了!
  9. 关于光伏行业的测试及测试标准
  10. 通过相关系数和自由度求置信度