Tessract训练中文字库
1 样本准备。图片格式转为.tif格式;
2 合并样本图片。用jTessBoxEditor工具,将所有的样本合并为一个或多个tif文件,文件名为chi.xikai.exp0.tif [lang].[font].exp[序号].tif;

3 生成box file文件。命令行:
tesseract.exe chi.xihei.exp19.tif chi.xihei.exp19 -l chi_sim batch.nochop makebox

4 文字矫正。用jTessBoxEditor工具将生成的box文件打开,对每个字符进行手动矫正;
5定义字体特征文件。在训练之前需要创建一个名称为font_properties.txt的字体特征文件,手工建立一个文件font_properties.txt,内容如:fontname 0 0 0 0 0
6聚集字符特征。
1)shapeclustering -F font_properties.txt -U unicharset chi.黑体.exp0.tr

2)mftraining -F font_properties.txt -U unicharset -0 chi.unicharset chi.黑体.exp0.tr

3)cntraining chi.黑体.exp0.tr

7把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上chi.

8执行combine_tessdata chi.

最后把生成的chi.traineddata放到tessdata目录。
OK!

tess4j训练字库相关推荐

  1. 用jTessBoxEditorFX训练字库

    软件下载:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 官方字库下载:https://github.com/tesser ...

  2. jTessBoxEditor2.3.1训练字库

    Tesseract是一个开源的OCR框架,可以实现图片的文字识别,对于正常的图片识别效率还是不错,不仅能识别英文,还能识别中文,不过需要自己下载字库.Tesseract和字库官网下载由于大家都知道都原 ...

  3. Tesseract-ocr识别中文并训练字库操作指南

    Tesseract-ocr识别中文并训练字库操作指南 一.Tesseract-ocr识别中文 1.Tesseract-ocr下载 2.中文语言包下载 Tesseract中文语言包 chi_sim.tr ...

  4. tesseract_ocr训练字库、合并字库

    谷歌的开源框架 tesseract-ocr可以帮助我们进行识别图像,文字等等,tesseract可以识别多种语言(一些常用的语言),多种图片格式,非常强大. 首先体验一下tesseract的强大功能, ...

  5. Tesseract-OCR 安装、中文识别与训练字库

    简介 OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形 ...

  6. java tess4j训练库_java语言下利用tess4j开源库进行图片中的文本提取

    一,tess4j 简单介绍 Tess4J是对tesseract -OCR API.的Java JNA 封装,使java能够通过调用Tess4J的API来使用tesseract -OCR 我有一篇博客也 ...

  7. 图像文字识别(三):Tesseract4.0训练字库,提高正确识别率

    由于tesseract的中文语言包"chi_sim"对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成 ...

  8. Tesseract OCR 训练字库

    Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...

  9. Tesseract训练字库研究过程中的一些问题和解决方案

    tess字库版本3.05 系统 win10 64位 问题1: 根据网上一些批处理代码进行的合并字库这一步一直出现奇怪的错误,如下: Error: Unable to open ECHO! " ...

最新文章

  1. .NET开发微信小程序-微信支付
  2. System Memory Management in Windows CE .NET
  3. Vcenter 管理中心 在服务器上新建虚拟机及安装系统
  4. Django基础篇之MVC与MTV模型
  5. 第十四章:详解Jenkins节点配置
  6. 利用matlab实现SAR 图像线性拉伸显示
  7. 梅森素数:千年不休的探寻之旅
  8. Java File类boolean createNewFile()方法(带示例)
  9. C++自学笔记(3)
  10. android以view建坐标系,android自定义View——坐标系
  11. 二进制转化成ascll_怎样将二进制转ascii码
  12. unique mapped reads
  13. MapReduce论文阅读记录
  14. kdj值应用口诀_KDJ指标神奇的操作方法详解
  15. 利用sentinel hub Python开发包查询和下载Sentinel-2等卫星遥感数据
  16. Cadence Allegro 板框倒角设置方法
  17. java 算法之找出数组中第二大的数
  18. 解决airodump-ng工具无法搜索5GHz频段的方法
  19. Lr 12 ACR 15:蒙版
  20. AWS亚马逊主机ec2用户切换root用户

热门文章

  1. 5大小红书推广引流技巧,云媒易知识分享
  2. css3新增属性有哪些?css3中常用的新增属性总结
  3. 浏览器下载poi-tl生成的word文件
  4. Error: Invalid or corrupt jarfile
  5. 【转】markdown表格中转义 “ | “符号
  6. 23种设计模式【全】 包含:模式定义 使用场景 实现步骤 优缺点 模式区别 UML类图 示例代码 注意项等
  7. 操作系统-文件管理(上)
  8. error LNK2019: 无法解析的外部符号
  9. 铝合金氩弧焊接工艺个人总结
  10. 0103-超强铝合金材料介绍GM55,9R相