python实现ORC/文字识别之pytesseract
比较方便使用的文字识别有两种,在这里县介绍第一种通过安装pytesseract就可以使用的方法。
首先是搭建好python环境和安装pycharm编码运行工具,这里不做赘述。
下载和安装pytesseract库
网址: https://digi.bib.uni-mannheim.de/tesseract/
可以下载较新的版本,下载安装到自己的目录就行,我安装的目录是D://Tesseract,安装比较新的版本还带有语言选择功能,安装过程中可以选择语言包(或者在下一步下载语言包配置)。
安装完后就需要在电脑上配置环境:我的电脑(右键)>>高级系统配置>>环境变量>>系统环境变量>>PATH(把pytesseract安装目录加上)。
下载安装语言包
pytesseract包含的没有中文,如果安装的时候没有安装中文,可以在这一步下载中文包安包然后配置。
网址: https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有两个,一个是简体chi_sim.traineddata,一个是繁体chi_tra.traineddata,一般是下载简体的,如果你需要的话都下载。
下载完后,放到安装目录的tessdata文件下即可。
还需要两个模块
pip install pytesseract
pip install pillow
最后一步
出现这个错误:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
那便是没有修改路径的问题。有了pycharm编辑器,可以直接点击pytesseract.py文件,找到源码中的tesseract = 'tesseract‘
将其改为自己的安装目录下的tesseract.exe,我的如下:
到这里,环境配置就完成了。
下面可以跑一下代码。
import pytesseract
from PIL import Image# 读取图片
im = Image.open('1.png')
# 识别文字,并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print
print(string)
大功告成!!!
这里是引用,感谢大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940
python实现ORC/文字识别之pytesseract相关推荐
- 小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验
小猪的Python学习之旅 -- 13.文字识别库pytesseract初体验 标签:Python 引言 度过了短暂的春节假期,又要开始继续搬砖了,因为还处于节后 综合征,各种散漫,不想看任何代码相关 ...
- 如何使用Python实现图像文字识别OCR
要使用Python实现图像文字识别OCR,可以使用以下步骤: 安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎,可以处理多种语言和字体.要使用Python进行OCR,需要安装 ...
- 化妆品致敏成分识别——python图像处理之文字识别+匹配
化妆品致敏成分识别--python图像处理之文字识别+匹配 本文主要探究一个小程序,给定一个化妆品的成分图片,判断其中是否含有致敏成分,帮助敏感肌选择化妆品~(程序质量不够理想,模型仍在调整完善,致敏 ...
- 2021-02-21 Python Easyocr 图片文字识别
Python Easyocr 图片文字识别 前段时间做了车牌识别相关的内容分享,参看: 车牌识别(1)-车牌数据集生成 车牌识别(2)-搭建车牌识别模型 今天给大家分享一个简单的OCR文本识别工具:e ...
- Python 利用百度文字识别 API 识别并提取图片中文字
Python 利用百度文字识别 API 识别并提取图片中文字 利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字.首先需注册获取 API 调用的 ID 和 key,步骤如下: ...
- Python 利用百度文字识别验证码、文字、图片并提取图片中文字或数字
Python 利用百度文字识别验证码.文字.图片并提取图片中文字或数字 Python 利用百度文字识别验证码.文字.图片并提取图片中文字或数字 以下是代码实现, Python 利用百度文字识别验证码. ...
- 通用印刷体识别 php,实战腾讯云ORC文字识别
本帖最后由 792858525 于 2019-11-8 16:16 编辑 之前弄服务器的时候无意间看到腾讯云有文字识别类的产品,在好奇的驱动下我点了进去,让就一发不可收拾....... 废话不多说,直 ...
- python电脑截图文字识别软件_Python实现文字识别,来看看大牛怎么实现截图/
python有截屏的包吗 有你可以试试pyscreenshot. 地址:https://github.com/ponty/pyscreenshot 使用:import pyscreenshot as ...
- python 百度云文字识别 proxy_python使用百度文字识别功能方法详解
介绍python使用百度智能去的文字识别功能,可以识别截图中的文,登陆路验证码等等., 登陆百度智能云,选择产品服务. 选择"人工智能"---文字识别. 点击创建应用. 如图下面有 ...
- python百度ai文字识别、代码分析_python利用百度AI实现文字识别功能
本文为大家分享了python实现文字识别功能大全,供大家参考,具体内容如下 1.通用文字识别 # -*- coding: UTF-8 -*- from aip import AipOcr # 定义常量 ...
最新文章
- CentOS LVM
- svm最大间隔函数及目标函数推导
- jQuery获取URL的GET参数值
- 南京林业大学计算机科学技术,南京林业大学信息科学技术学院
- Waymo无人车,每天能绕地球一圈
- django发送邮件结合itsdangerous+celery+redis
- taro 请务必在小程序页面中完善页面基础信息_如何一人五天开发完复杂微信小程序...
- 计算机组成原理——第七章
- 发现一个有意思的英文期刊 China and the World Ancient and Modern Silk Road
- 怎么清理c盘语言文件,怎么清理c盘垃圾
- 联想微型计算机的摄像头驱动,Lenovo EasyCamera 联想摄像头驱动
- [Hive SQL] 实现分组排序、分组topN
- CNZZ异步统计代码
- 怎样防止恶意刷短信验证?
- java实现24点计算
- Android6.0以上应用在长时间在后台,因为内存不足导致系统回收内存,当再次启动应用出现Fragment重叠或者空白、异常解决方案(提供模拟内存不足导致系统回收内存的方案)。
- java数据透视表算法_java – 在数据透视表上对数组进行分区
- pdo mysql dsn_使用PDO构造函数连接数据库及DSN详解
- MATLABnbsp;nbsp;median函数amp;nbs…
- 阿里巴巴数学竞赛详细解答(据说晋级的直接P8岗)
热门文章
- linux用 弹出光驱 cdromeject_sw,Linux_Linux系统下光驱软开关与限速,一、光驱的软开关:eject -r cdro - phpStudy...
- java正则表达式 工具类_Hutool之正则表达式工具类——ReUtil
- [老文档]2015-08-11一种WiFi阶梯式省电控制的策略及装置
- MySQL错误Got error -1 from storage engine
- html有序列表标签圆点,什么是无序列表、有序列表、定义列表?html列表标签学习笔记...
- 数学分析(7): 微分中值定理
- 自动驾驶的疑点重重, 再次印证了科技的「非理性繁荣」
- su如何变成实体_Sketchup实体工具怎么使用? SU实体工具的使用方法
- 苹果前置摄像头拍出来是反的怎么调_苹果前置摄像头拍照是反的怎么办
- SLAM:一:产品经理眼中的SLAM技术学习路径