Atititi tesseract使用总结

消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://code.google.com/p/tesseract-ocr。

Windows cmd命令行使用Tesseract-OCR引擎识别验证码:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

tesseract-ocr-setup-3.01-1.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.

简体中文字库文件下载地址为:http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。

附录:

Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

例如:

tesseract code.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.

"C:\0workspace\Tesseract\tesseract.exe"  "D:\ati\dcim_mov22\IMG_0177.PNG" "D:\ati\dcim_mov22\IMG_0177"

cmd ext finish!

““- 中国联通 一÷、 1:36 AM @ 4 >B 64%庄〕

wapbaike.baidu.com

那样既闷热又不方便, 所以文暴走们就用书包代替保护

颈椎的护具, 不过这些书包少的几十, 贵的几百上干还

可以放东西真是一举两得。 不过可不要因此认为他们很

温柔, 和这些文暴走比速度, 因为在他们眼里就算兰博

墓启都只有屹灰的份。 排量 干以上的机车〇-wO提速

足以秒杀布加迪威龙以下的汽车, 也许正是因为这种对

提速的迷恋才是他们热爱机车的原因! 发展到今夭, 文

暴走里面又衍生出了炸街党。 田于对社会压力的释放已

不能通过飙车来满足, 文暴走们不再低调, 换掉原装排

气的重型机车, 咆哮的声音足够让整个市中心知道他的

存在。 在车流中的浑厚引擎声, 仿佛告诉人们, 生活中

你不在沉默中死亡, 就在沉默中胞晖, 他们正是这群沉

默的胞晖耆。 行云流水般的车技, 加上轰炸式的声音,

也就行成了炸街一词。 用咆晖的引擎让整条街的玻璃和

地板都为之震动, 百分之百的回头率, 告诉着你, 胯下

的巨物可不是闹着玩的, 它身价不菲, 同样它藐视所有

法则, 因为跨上去的那一刻, 就与世界脱离, 告诉你这

是 群有故事的人。

历史起源

硼 个

说起日本的暴走族% 就不能不提到广岛, 因加Ba

走凤气最盛行, 被日本媒体称为“广岛现象% 这认 ,、

走风’再次刮起, 广岛自然不甘落后。 -个朋友告诉笔

耆, 最近几夭, 他时常看到马力强劲的摩托车在广岛街

要不要转换tif,attilax测试,是一样的效果....

Java调用OCR进行图片识别 - conanswp的专栏 - 博客频道 - CSDN.NET.html

作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 )

汉字名:艾提拉(艾龙),   EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

Atiend

Atititi tesseract使用总结相关推荐

  1. Atitit q2016 qb doc list on home ntpc.docx

    Atitit q2016 qb doc list on home ntpc.docx 驱动器 D 中的卷是 p2soft 卷的序列号是 9AD0-D3C8 D:\ati ext notbek\q201 ...

  2. Python机器学习:训练Tesseract

    训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...

  3. Python:机器视觉与Tesseract介绍

    机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域. 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 P ...

  4. Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

    Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 1. 效果图 2. Tesseract 安装及验证 参考 这篇博客将介绍如何安装和使用光学字符识别(OCR Optical ...

  5. Tesseract 3 语言数据的训练方法

    OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业 ...

  6. 使用 OpenCV 和 Tesseract 对图像中的感兴趣区域 (ROI) 进行 OCR

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,我们将使用 OpenCV 在图像的选定区域上应用 O ...

  7. Python Tesseract 图片识别-小操练

    小科普 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息. Tesseract的OCR引擎最先由 ...

  8. ElectronOCR:基于Electron+React+Tesseract的MACOS下的OCR工具

    Github Repo 地址 文章地址 MAXOS Darwin x64下载 笔者一直在MacOS上没找到太顺心的OCR工具,导致看书的时候很多东西只能手打,略烦.正好前段时间用了Tesseract, ...

  9. C#用Tesseract进行OCR识别,可识别中英日韩所有语言

    源码下载:https://download.csdn.net/download/horseroll/10739546    源码下包含部分语言包,所以文件比较大 无积分付费下载地址:https://d ...

最新文章

  1. bootstrap模态框显示控制
  2. AMD Athlon ⅡX2 240 K10 平台 超频 全记录
  3. 关于server 2008 r2中文版安装多国语言用户界面包(英文)
  4. php gif上传后不动,GIF图片上传后不动的解决办法
  5. MongoRepository findById方法使用示例
  6. 安装Hadoop及Spark(Ubuntu 16.04)
  7. Linux网络模式及远程连接出错排障
  8. 利用UDP19端口实施DOS攻击的真实案例
  9. unity案例入门(二)(坦克大战)
  10. Redis基础(九)——发布与订阅
  11. excel删除行闪退_excel2010闪退的处理方法
  12. 齐次坐标和单应性矩阵
  13. Proxy.newProxyInstance处引起 java.lang.ClassCastException 问题的解决方法
  14. 手机自动化测试的原理
  15. Win11如何给系统盘瘦身?Win11系统盘瘦身方法
  16. xp查看计算机mac地址查询,如何查看mac地址 xp系统查看查询mac地址方法介绍
  17. 计算机网络谢希仁第七版课后习题答案
  18. 201908 小技巧---设备管理器-其他设备-通用串行总线(USB)控制器 驱动安装
  19. PTK(Pulmonarytoolkit)环境搭建与 ITK4.13+VS2015的配置
  20. 广东高中生多少人_广东2016高考五大变化 考生总人数73.3万

热门文章

  1. 尼尔机器人技能快捷键_《尼尔机械纪元》连招操作技巧
  2. 最容易进的大厂工作,百度经典百题
  3. 精华Java问题总结
  4. C++:40---继承中类成员的变化关系
  5. 《Python Cookbook 3rd》笔记(5.10):内存映射的二进制文件
  6. Java提高篇 —— Java三大特性之多态
  7. 员工价值——如何体现自己价值,如何被自己的领导认可
  8. x264 移植到 ARM的方法
  9. Linux 安装 jdk ( 两种方式 )
  10. 解决 Unmapped Spring configuration files found.Please configure Spring facet.