说明:主要考虑深度学习的方法,传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection:找到有文字的区域(proposal)。

1.2classification:识别区域中的文字。

2.文字检测

文字检测主要有两条线,两步法和一步法。

2.1两步法:faster-rcnn.

2.2一步法:yolo。相比于两步法,一步法速度更快,但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测:四个自由度,类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测:文本框是不规则的四边形,八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路:检测文本框->用radon hough变换等方法进行文本矫正->通过投影直方图分割出单行的文本的图片->最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的,各个字符之间看成是独立的:multi-digit number。

3.2不定长的:RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism(CNN+RNN+Attention):分为hard attention(直接给出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

图像文字识别(OCR)用什么算法小结相关推荐

  1. 如何使用Python实现图像文字识别OCR

    要使用Python实现图像文字识别OCR,可以使用以下步骤: 安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎,可以处理多种语言和字体.要使用Python进行OCR,需要安装 ...

  2. 基于Python实现的图像文字识别OCR工具

    引言 最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + labelme + PaddleOCR 写了一个桌面 ...

  3. 基于Python实现的图像文字识别OCR工具,包含GUI界面附完整版代码可直接运行

    引言 最近在技术交流群里聊到一个关于图像文字识别的需求,在工作.生活中常常会用到,比如票据.漫画.扫描件.照片的文本提取. 博主基于 PyQt + labelme + PaddleOCR 写了一个桌面 ...

  4. 用Python写了一个图像文字识别OCR工具

    大家好,我是辰哥~ 点击下方名片关注和星标『Python研究者』!

  5. java实现自动识别验证码并自动填写提交(调用百度通用文字识别OCR接口+大图找小图之图像识别算法+模拟鼠标键盘动作)

    一.使用的技术: 1.调用百度AI通用文字识别OCR接口 2.图像识别算法 二.实现方案与步骤: 1.得到验证码的图片的坐标:先将验证码截图,然后再对整个电脑屏幕截图,通过大图找小图的方法,计算出小图 ...

  6. Prizmo Pro for Mac(OCR图像文字识别工具)

    Prizmo Pro mac版可以自动扫描相机中的图片,可根据用户选择的文档类型进行特殊处理,支持常用的扫描仪.数码相机.iPhone.iPad 等,也支持自动截图桌面部分区域然后识别出文字,非常的有 ...

  7. 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  8. halcon ocr 生成样本变体_Halcon简单文字识别OCR的使用

    重要:本文最后更新于2019-10-18 08:49:28,某些文章具有时效性,若有错误或已失效,请在下方留言或联系代码狗. 突然想起网上有很多打码挣钱的活动,于是灵光一闪,用C#搞个自动识别验证码的 ...

  9. APISpace 通用文字识别OCR API

    APISpace 的 通用文字识别OCR API,基于业界领先的深度学技术,对图片中的文字进行检测和识别,支持多种语言.并且包含文字在图片中的位置信息,方便进行版式的二次处理. 应用场景 拍照/截图识 ...

最新文章

  1. loadrunner中自定义查找并替换函数
  2. 一些关于iText和iTextSharp的旧闻(some old news about iText and iTextSharp)
  3. 针对Web应用的【攻击模式篇】
  4. Azure:不能把同一个certificate同时用于Azure Management和RDP
  5. 结构型模式之Flyweight模式
  6. 临近春招,Kafka是不是忘完了,给你一文概括Kafka
  7. 为什么技术最牛的码农当不了首席工程师?
  8. pip代理解决pip下载失败问题
  9. (王道408考研数据结构)第二章线性表-第三节1:单链表的定义及其操作(插入和删除,建立之尾插和头插)
  10. date字段 http 头文件_http头文件信息
  11. Beta阶段第1周/共2周 Scrum立会报告+燃尽图 06
  12. Oracle数据库外部的身份认证方法
  13. Linux_ubuntu16.04 无线/Wifi 上网速度慢的解决方法
  14. S3C2440移植RTL8187L无线USB网卡记录(未解决)
  15. 移动端app开发,原生开发与混合开发的区别
  16. VSFTPD (500 Illegal PORT command 500 OOPS: vsf_sysutil_bind) 错误解决方法
  17. 手机长时间不用自动断网_手机自动断网怎么回事
  18. Mac显示隐藏文件命令
  19. 那些年你追过的女神:开发人员应该懂多少运维
  20. MT6323 PMIC 功能介绍

热门文章

  1. win7防火墙开放某个端口
  2. Spring MVC过滤器 登陆过滤
  3. 没有之一,最美的接口管理神器
  4. linux中find命令的常见用法
  5. JS判别是否为X以上刘海屏
  6. java面向对象知识点02
  7. 提高记忆计算机知识的方法有哪些,由计算机的记忆方法想到...
  8. 消息队列-rabbitmq原理
  9. mysql 监控 sql执行语句
  10. 从零开始的树莓派开发(一):系统配置