验证码识别 Tesseract的简单使用和总结

Tesseract是什么

OCR即光学字符识别，是指通过电子设备扫描纸上的打印的字符，然后翻译成计算机文字的过程。也就是说通过输入图片，经过识别引擎，去识别图片上的文字。Tesseract是一种适用于各种操作系统的光学字符识别引擎，最早是hp公司的软件，2005年开源，2006年后由google一直赞助Tesseract开发和维护。2006年，Tesseract被认为是当时最准确的开源OCR引擎之一。

验证码识别类型

这里讨论一般的验证码识别，即英文、数字、或者英文和数字的混合的验证码，不包括滑动和文字点击这些类型。

Tesseract的安装

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract
Tesseract的安装github上有说明，Tesseract现在有3.05的版本，也有4.0beta版，我自己使用之后感觉2者差异不大，替换之后识别率也没有明显提升，所以只要使用其中一个就好。Tesseract支持windows和linux，windows下装完之后有个Tesseract-ocr的目录，目录下有个tesseract.exe的程序，可以通过调用这个exe的命令行去进行ocr的识别。

Tesseract的使用

简单的命令行使用如下：

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

参数说明：

imagename　　图片文件
outputbase　　输出文件，也可以选择命令行输出stdout

可选参数

-l lang　　识别库，默认是eng，也可以是自己训练出来的识别库
-psm pagesegmode 识别模式

pagesegmode 具体含义见下图

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

Tesseract训练

可以通过jTessBoxEditor去训练Tesseract，而且训练样本越多，识别准确度越好，实际使用中我训练了500张图片，对识别率的提升还是有的，但是还是没能达到自己想要的预期识别率，估计是样本还不够多吧。另外对样本一个个修正也是个繁琐的事情，尤其是验证码，一般都各种变形以防止程序轻易识别，不过总体来说只要样本够多，想要达到预期的识别率还是可以的。关于jTessBoxEditor训练的详细步骤，有兴趣的可以自己去搜索Tesseract相关资料了解。

转载于:https://www.cnblogs.com/crazymanpj/p/9427957.html