关于文字这方面会涉及图形识别学——OCR(Optical Character Recognition光学字符识别),目前像汉王,紫光,微软等都在这方面有专门的研究单位。OCR的步骤和过程算是集大成于一体,它会用到各种图形学中的方法来获得最高的正确率,OCR是不确定性科学,百分之百的识别正确率似乎只会存在于理论上。

我简单的介绍一下OCR的一般性过程吧:

首先是提取前预处理

这个过程是将你用扫描仪、数码相机等工具将印刷品或手写品输入到电脑后,先采取一些通用的算法将这些得到的图像特征化:譬如先进行二值化或灰价化,图像的去噪和正规化及可能需要的影像矫正,还会有图文分析、字行间处理等,这个过程做的事可能最多最杂,但所用到的算法理论和技术方面都很成熟了。不过最后的文字的行间距处理就会有一些差异,有些软件可能只会简单的将文字一个个提取出来了事,完全不管之前的印刷格式,这就是一个简单的字行间距处理的实现。复杂得可能会得到印刷品的排版信息。

然后是文字特征提取

这是OCR的关键部分了,用何种方法提取会直接影响到最终正确率,这方面的论文和学术报告也最多,但主要方法一般有两种:一是统计特征,如文字区域内的黑白点数比,当文字区分成好几个区域时,这一个个区域黑白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就可以应付了;另一类特征为结构的特征,如文字影像矢量化后,取得字的笔划端点、交点的数量及位置,或以笔划为特征,配合相应的比对方法比对,一般的手写输入软件的识别方法多为后者。

再就是数据库对比

不论采用上面的哪种方法进行的提取,都得有一个对比数据库进行比对,比如常用的比对方法说松弛比对法、欧式空间比对法、类神经网络比对等,这些方法也可以互补使用。

后期处理

这部分包括字词处理和人工校正。最后的结果就可以输出了。

基本上就是这些了,里面很多名词可能就是一门学科,需要花费较长时间和精力去研究。

[此贴子已经被作者于2007-8-7 8:33:56编辑过]

c语言字体读取方式,请教文字识别与图象识别的方法相关推荐

  1. QT案例实战1 - 从零开始编写一个OCR工具软件 (8) Pdf读取展示/截图/文字识别

    一.PDF读取展示功能 QT提供了pdf.PdfWidgets模块,需要安装模块,然后在项目的CMakeLists.txt文件内,添加如下代码,以便在项目中使用. 官方提供了完整的pdf展示示例,示例 ...

  2. bind merge r 和join_R语言并行读取csv:地表最快csv合并方法

    作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量.机器学习.数据可视化.应用统计建模.知识图谱等,著有& ...

  3. java实现图片文字识别的两种方法

    一.使用tesseract-ocr 1.    https://github.com/tesseract-ocr/tesseract/wiki上下载安装包安装和简体中文训练文件 window64位安装 ...

  4. 计算机网络故障识别方式,计算机网络故障识别与一般解决方法

    摘 要]网络故障极为普遍,故障种类也十分繁杂.如果把网络故障的常见故障进行归类查找,那么无疑能够迅速而准确的查找故障根源,解决网络故障.文章主要就网络常见故障的分类诊断进行了阐述. [关键词]网络故障 ...

  5. 基于百度AI的文字识别(Python语言)

    简 介:百度大脑是百度 AI 核心技术引擎,包括视觉.语音.自然语言处理.知识图谱.深度学习等AI核心技术和AI开放平台.本文介绍百度 AI 核心技术中文字识别功能的使用方法. 关键词:百度AI.文字 ...

  6. 揭秘!文字识别在高德地图数据生产中的演进

    简介:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

  7. python——人工智能(AI)之网络图片文字识别案例详细讲解

    文章目录 一.需求分析 二.产品选择及准备 三.开始编写应用 1.获取token 2.处理图片 3.发送请求,解析数据 一.需求分析 我们要实现的功能很简单,通过使用百度的API进行图片当中文字的详细 ...

  8. 文字识别在高德地图数据生产中的演进

    导读:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

  9. poi hssfcellstyle 文字方向_揭秘!文字识别在高德地图数据生产中的演进

    简介:丰富准确的地图数据大大提升了我们在使用高德地图出行的体验.相比于传统的地图数据采集和制作,高德地图大量采用了图像识别技术来进行数据的自动化生产,而其中场景文字识别技术占据了重要位置.商家招牌上的 ...

最新文章

  1. 计算机组成原理名词解释常用,2018考研408计算机组成原理名词解释(3)
  2. 024_jdbc-mysql的Dao模式
  3. VTK:Rendering之TransformSphere
  4. ERROR: SampleCB() - buffer sizes do not match 解决方法
  5. Linux下查看物理CPU、逻辑CPU和CPU核数
  6. sql报表按月统计_用Excel如何对销售数据按月分别统计成本,销售额以及利润?...
  7. 工厂支持多数据库开发的三层结构模式随笔(一)
  8. java牛顿法求方程根_快速求解方程的根——二分法与牛顿迭代法
  9. 使用javac编译时碰到的问题
  10. mybatis的多AND条件查询。批量插入。String分割查询。
  11. 浅谈Eclipse dropins插件安装的坑(附m2e的各个版本插件下载)
  12. Codeforces 1009E Intercity Travelling 【期望】【概率】
  13. 音质好的linux主机,实测:ASIO 的音质更好?
  14. Apache Tomcat 历史版本下载地址 官网地址
  15. IE 主页被恶意篡改的解决方法
  16. 上古卷轴5json文件修改_《上古卷轴5》丝袜MOD制作图文教程 丝袜怎么制作
  17. 如何使用加速度计实现倾斜角度计算
  18. 动网产品失败, 合作伙伴寒心离去
  19. 前端获取计算机设备信息,前端获取设备/APP信息
  20. 弗雷德里克·特曼:硅谷之父、斯坦福大学前副校长——(转自新浪网)

热门文章

  1. KMP算法详解及代码
  2. 微信小程序| 基于ChatGPT+明基屏幕挂灯实现超智能家居物联网小程序
  3. arcgis标注只显示部分_arcgis中设置标注时,标注不显示,只有设置了放置压盖才会显示,这是什么原理?...
  4. 基于SVD++隐语义模型的信任网络推荐算法
  5. jQuery自制手风琴效果增强版(附实现原理)
  6. Webpack——调试工具Source Map
  7. 显示器显示“输入信号超出范围”怎么调整
  8. 对接支付宝支付接口开发详细步骤
  9. OC中常见面试题汇整篇
  10. (manjaro)linux系统启动时提示 ERROR:resume:hibernation device‘UUID=3f48c68c-4717-438e-aff6-26ac8f‘ not found