基于pytesseract进行图片文字识别

  • 前言
  • 一、模块pytesseract实现图片文字OCR识别过程
    • 1.了解
    • 2.下载
    • 3.后续添加语言
    • 4.下载相应的库
  • 二、使用步骤
  • 总结

前言

我有一个图片,他上面的文字我觉得对我有用,我想把它摘下来,但是,我懒,不想一个一个手巧,又不想借助其他的软件进行识别,就想自己写串代码实现图片的文字识别,怎么办呢?来瞅瞅这篇文章吧(此文章最好用于截图之类规范文章的图片)。


一、模块pytesseract实现图片文字OCR识别过程

1.了解

OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术,可以将图片,纸质文档中的文本转换为数字形式的文本。
pytesseract是基于Python的OCR工具, 底层使用的是Google的Tesseract-OCR 引擎,支持识别图片中的文字,支持如下格式。

2.下载

传送门点击进入

在这里面,往下翻找下图这种,已经完成的。

接着下载安装到想要安装的磁盘,我就默认安装到了c盘

记得勾选想要的而语言
安装完后添加系统环境变量

新创建一个如下图添加。

确认完后,接着按住win+r输入cmd回车,在里面输入
tesseract -v
出现版本号之类的为安装配置成功

tesseract --list-langs

出现上图为语言

3.后续添加语言

传送门打开往下拉,选择下载,下载下来的文件放到最开始安装pytesseract-ocr的文件夹下的tessdata目录下,如图

4.下载相应的库

pip install pytesseract
pip install Pillow # 用于处理图像

二、使用步骤

import pytesseract
# pillow 安装的库名与导入的包名是不一样的
from PIL import Image# 找自己的tesseract.exe放在哪个目录下
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 1 加载图片
image = Image.open('图片.png')
# 2. 识别图片上的文字
string = pytesseract.image_to_string(image,lang='chi_sim')
# 3. 打印识别的文字
print(string)

图片如下

运行结果如下(有的识别不是很准确)

注: lang=’ ’ 根据图片的内容进行修改,本图片中文居多,所以用此,添加的内容在tessdata文件夹找,或查看目前所有语言进行使用


总结

首先要注意,此方法并不能很好的去识别一些图片,那秀娥图片可能需要经过图片的预处理然后使用,有关于py的问题,可以 点击传送门提问探讨。

【基于pytesseract进行图片文字识别】相关推荐

  1. Python识别验证码,基于Tesseract实现图片文字识别

    一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...

  2. Python+pytesseract+Tesseract-OCR图片文字识别(只适合新手)

    https://blog.csdn.net/zhangshaohua1603/article/details/79722399?utm_source=blogxgwz0

  3. python:pytesseract库实现图片文字识别

    import pytesseract from PIL import Imagetext = pytesseract.image_to_string(Image.open(r"E:\repo ...

  4. Android 图片文字识别DEMO(基于百度OCR)

    前言   OCR 是 Optical Character Recognition 的缩写,翻译为光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别 ...

  5. python 百度ai批量识别_Python基于百度AI的文字识别的示例

    Python基于百度AI的文字识别的示例 使用百度AI的文字识别库,做出的调用示例,其中filePath是图片的路径,可以自行传入一张带有文字的图片,进行识别. 下载baidu-aip这个库,可以直接 ...

  6. Python图片文字识别——Windows下Tesseract-OCR的安装与使用

    Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...

  7. 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  8. python调用百度接口实现ocr识别_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  9. python 百度ocr安装_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

最新文章

  1. 面向对象的5个基本设计原则
  2. Quartz集成springMVC 的方案一
  3. 《Essential ASP.NET 2.0中文版》
  4. 统计学cv值是什么意思_电源的回馈控制回路有什么作用?
  5. 自底向上的web数据操作指南
  6. tensorboard出现OSError: [Errno 22] Invalid argument问题解决
  7. OpenCV访问像素点的灰度值
  8. 【转】持续交付和DevOps的前世今生
  9. buffer string builder简单说明
  10. 2021新鲜出炉软件测试的真实面试题(一篇足以)
  11. Helm 3 完整教程(二十三):使用 Files 方法在模板中读取文件内容
  12. 简单java程序_简单的Java程序
  13. binlog日志_mysql日志redo log、undo log、binlog以及作用看这篇就可以啦
  14. 系统找不到指定的文件。 : No installed service named Apache
  15. ModuleNotFoundError: No module named 'cv2' (安装cv2)
  16. linux驱动_设备驱动_问题定位_vivo_pd1932_音量键
  17. Java打印直角三角形
  18. Revit二次开发资料汇总
  19. 【USB】STM32模拟USB鼠标
  20. 树莓派-11-3又1/2位数字万用表使用说明书

热门文章

  1. 关闭谷歌 Chrome 浏览器不再支持 Win7的置顶横条通知
  2. Excel--认识Excel的公式与函数
  3. 你好!基于Arduino控制的串口屏
  4. java银行取款_Java写简单的银行取钱系统
  5. 医院管理系统数据库的创建
  6. 想学习微信开发,需要会哪些技术?
  7. 为什么要抽时间读书?为什么要写读书笔记?
  8. python爬取天气预报用163邮箱发
  9. java云控_云控 数据上传
  10. 设计模式C++实现40讲(-1)什么是设计模式