OCR论文综述(含文字识别、文本检测、端到端和数据集合)
OCR综述概览
主要分为四个部分
文字识别、文本检测、端到端文字识别和数据集的介绍
1. 文字识别
指标为f1-score
Conf. |
Net |
Title |
SVT |
IIIT5K |
ICDAR13 |
---|---|---|---|---|---|
TPAMI2015 | CRNN |
An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition |
0.808 | 0.782 | 0.867 |
CVPR2016 | RARE | Robust scene text recognition with automatic rectification | 0.819 | 0.819 | 0.886 |
ICCV2017 | FAN | Focusing Attention: Towards Accurate Text Recognition in Natural Images | 0.859 | 0.874 | 0.933 |
TPAMI2018 | ASTER | ASTER: An Attentional Scene Text Recognizer with Flexible Rectification | 0.936 | 0.934 | 0.918 |
PR2019 | MORAN | MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition | 0.883 | 0.912 |
0.924 |
CVPR2020 | SRN | Towards Accurate Scene Text Recognition With Semantic Reasoning Networks | 0.915 | 0.948 | 0.955 |
1、CRNN
- 首先CNN提取图像卷积特征
- 然后LSTM进一步提取图像卷积特征中的序列特征
- 最后引入CTC解决训练时字符无法对齐的问题
2、RARE
RARE是一个深度神经网络,包括一个空间变换网络Spatial Transformer Network (STN)和一个序列识别网络Sequence Recognition Network (SRN)
两个网络同时用BP算法进行训练。网络结构如下:
提出了一个新颖且对不规则文本具有鲁棒性的场景文字识别方法;
采用了基于注意力模型(attention-based)的STN框架。传统的STN只在普通的卷积神经网络中测试;
在SRN编码器中使用循环卷积结构。
3、FAN
- 提出注意力漂移的概念,解释了现有注意力方法在复杂/低质量自然图像上性能较差的原因。
- 开发了一种 FAN新方法来解决注意力漂移问题,这种方法在大多数现有方法都有的注意力模块之外,还引入了一个全新的模块——聚焦网络(FN),该网络可以使 AN偏离的注意力重新聚焦在目标区域上。
- 采用强大的基于 ResNet 的卷积神经网络,以丰富场景文本图像的深度表征。
- 在多个基准上实施大量实验,展示了我们的方法与现有方法相比的性能优越性。
4、ASTER
本文方法主要解决不规则排列文字的文字识别问题,论文为RARE的改进版
5、MORAN
面向不规则及通用场景文本。MORAN由矫正子网络MORN和识别子网络ASRN组成,在矫正子网络MORN中设计了一种新颖的像素级弱监督学习机制来进行不规则文本的形状纠正,以降低不规则文本的识别难度。矫正子网络和识别子网络可端到端联合训练,也不需要字符位置或像素级分割等监督信息,使得网络的训练大大简化。
- 修正网络MORN采用弱监督的方式进行
- 提出了fractional pickup方法进一步提升attention的灵敏度
- 提出了curriculum learning strategy用于网络整体训练
6、SRN
由四部分组成:基础网络Backbone、并行的视觉特征提取模块(PVAM)、全局语义推理模块(GSRM) 和视觉语义融合的解码器(VSFD)
2. 文本检测
指标为f1-score
Conf. | Net | Title | ICDAR13 | ICDAR15 | CTW1500 |
---|---|---|---|---|---|
ECCV2016 |
CTPN |
Detecting Text in Natural Image with Connectionist Text Proposal Network | 0.8215 | 0.6085 | 0.569 |
CVPR2017 |
SegLink |
Detecting Oriented Text in Natural Images by Linking Segments | 0.853 | 0.75 | |
CVPR2017 |
EAST |
EAST: An Efficient and Accurate Scene Text Detector | 0.8072 | 0.604 | |
arXiv2018 |
PSENet |
Shape Robust Text Detection with Progressive Scale Expansion Network | 0.8721 | 0.822 | |
AAAI2019 |
DBNet |
Real-time Scene Text Detection with Differentiable Binarization | 0.847 | 0.834 | |
CVPR2021 |
FCENet |
Fourier Contour Embedding for Arbitrary-Shaped Text Detection |
0.862 | 0.855 |
1、CTPN
只能检测水平文本,通过Faster RCNN+LSTM预测固定宽度的文本候选框,在后处理部分再将这些小文本段连接起来,得到文本行。
- 将文本检测任务转化为一连串小尺度文本框的检测;
- 引入RNN提升文本检测效果;
- Side-refinement(边界优化)提升文本框边界预测精准度。
2、 SegLink
- 与CTPN思想类似,都是先找出文本行的一部分,然后再连接所有的部分,组成一个完整的文本行;
- 在SSD基础上加入了旋转角度的学习;
- 在小部分文本框之前用连接线(相邻框的中点连线)来表示属不属于同一个文本框,也是用网络来学习;
- 使用融合规则将各个阶段的框信息和线信息进行融合,组成文本行。
3、 EAST
- 提出了一个由两阶段组成的场景文本检测方法:全卷积网络阶段和NMS阶段。
- 该pipeline可灵活生成word level或linelevel上文本框的预测,预测的几何形状可为旋转框或水平框。
- 算法在准确性和速度上优于最先进的方法。
4、PSENet
主干 resnet
- 是一个基于像素分割的方法,能够精确地定位任意形状的文本实例;
- 提出了渐进式扩展算法,即使两个文本实例离得很近也可以分开,从而保证文本实例的准确位置;
从最小尺度的kernels开始扩展,最小的kernels可以把紧靠的文本实例分开;逐渐扩展到更大的kernels;直到扩展到最大的kernels,组成最终的结果。
5、DBNet
传统的基于分割的文本检测的后处理方法比较复杂,提出差分二值化
- 在基准数据集上有良好的表现,其中包括水平、多个方向、弯曲的文本。
- 比之前的方法要快很多,因为DB可以提供健壮的二值化图,从而大大简化了后处理过程。
- 使用轻量级的backbone(ResNet18)也有很好的表现。
- DB模块在推理过程中可以去除,因此不占用额外的内存和时间的消耗。
6、FCENet
着重于对任意形状文本包围框的表示方法建模,提出了可以精确地逼近任何封闭曲线的傅里叶轮廓嵌入方法和针对此文本框表达方法设计的FCENet。
该算法在高度弯曲文本上具有优异的检测性能,且具有良好的泛化能力。在没有额外数据集参与预训练的情况下,在CTW1500、Total-Text上的检测效果达到了SOTA。
3. 端到端文字识别
- 由于检测和识别是高度相关的,因此将检测和识别统一到一个模型里面,就使得图像的feature可以被共享利用。
- 检测和识别这两种任务可以是互补的,更好的检测结果可以提升识别的准确率,识别的信息也可以被用来精修检测的结果。
Conf. | Net | Title | ICDAR13 | ICDAR15 |
---|---|---|---|---|
ICCV2017 | Towards End-to-end Text Spotting with Convolution Recurrent Neural Network | 0.8459 | ||
CVPR2018 | FOTS | FOTS: Fast Oriented Text Spotting with a Unified Network | 0.8477 | 0.6533 |
ECCV2018 | Mask TextSpotter | Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes | 0.865 | 0.624 |
ICCV2019 | CharNet | Convolutional Character Networks | 0.7108 | |
ECCV2020 | Mask TextSpotterV3 | Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting | 0.742 |
1、
a.end-to-end方式训练出来的模型可以学习到更丰富的图像特征,并且这种特征可以被两种不同任务所共享,可以有效的节省时间。
b.论文中提出了一种全新的region feature抽取方法。这种feature抽取方法可以很好的兼容文本bbox原始长宽比以及避免图像的扭曲,而且ROI pooling可以生成具有不同长度的feature maps。
c.提出了一种类似课程学习策略的方法用一种逐渐增加图像复杂性的数据集来训练模型。
2、FOTS
- End-to-end框架的解决了角度文本端到端识别的问题;
- RoI Rotate模块的运用,桥接了detection和recogniton
- 模型小、速度快、效果好
3、Mask TextSpotter
Mask TextSpotter利用简单且平滑的端到端学习过程,通过语义分割获得精确的文本检测和识别。此外,它在处理不规则形状的文本实例(例如,弯曲文本)方面优于之前的方法。
识别部分只能识别26个字母+10个数字
4、CharNet
整个网络分为两个大的分支,上面的分支用来进行字符检测和识别(整体);下面的分支用来检测字符中的每一个文本(单个文字或字符)。
5、Mask TextSpotterV3
4. 数据集
数据集 | 数据语言 大小 | 简要介绍 | 标注格式 | 下载地址 |
---|---|---|---|---|
ICDAR_2013 | 语言: 英文 train:229 test:233 |
水平文本 |
x1 y1 x2 y2 text | 下载链接. |
ICDAR_2015 | 语言: 英文 train:1000 test:500 |
倾斜文本 |
x1,y1,x2,y2,x3,y3,x4,y4,text | 下载链接. |
ICDAR2017-MLT | 语言: 混合 train:7200 test:1800 |
多语言文本 |
x1,y1,x2,y2,x3,y3,x4,y4,text | 下载链接. 提取码: z9ey |
ICDAR2017-RCTW | 语言: 混合 train:8034 test:4229 |
主要是中文 |
x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,text | 下载链接 |
天池比赛2018 | 语言: 混合 train:10000 test:10000 |
合成图像,产品描述,网络广告 复杂排版,密集的小文本或多语言文本,水印等 |
x1,y1,x2,y2,x3,y3,x4,y4,text | 检测。 识别 |
ICDAR2019-MLT | 语言: 混合 train:10000 test:10000 |
水平文本 每个连续的1000个图像包含一种主要语言的文本 |
x1,y1,x2,y2,x3,y3,x4,y4,语言类别,text | 下载链接. 提取码: xofo |
ICDAR2019-LSVT | 语言: 混合 train:30000 test:20000 |
中文街景图像 |
json格式标签 | 下载链接 |
ICDAR2019-ReCTS | 语言: 混合 train:20000 test:5000 |
餐厅招牌上的中文文本 |
json格式标签 | 下载链接 |
ICDAR2019-ArT | 语言: 混合 train:5603 test:4563 |
包含水平、多方向和弯曲等多种形状的文本 |
json格式标签 | 下载链接 |
Synth800k | 语言: 英文 80k |
每个文本实例均使用文本字符串、字级和字符级边界框进行注释 |
基于字符标注 | 下载链接 |
360万中文数据集 | 语言: 中文 360k |
每个样本固定10个字符,字符随机截取自语料库中的句子 |
每张图片由10个字符构成 | 下载链接. 提取码:lu7m |
中文街景数据集CTW | 语言:中文 32285 |
包含平面文本,凸起文本,城市文本,农村文本, 低亮度文本,远处文本,部分遮挡文本 |
基于字符标注的中文街景图片 | 下载链接 |
百度中文场景文字识别 | 语言: 混合 29万 |
由街景图片中的文字行区域(如店铺标牌、地标等)截取出来而形成 图像经过一些预处理:将文字区域利用仿射变化,等比映射为一张高为48像素的图片 |
下载链接 | |
MSRA-TD500 | 语言: 中英文 Training:300 Test:200 |
|
.gt格式标签 | 下载链接 |
Total-Text | 语言: 英文 Training:1255 Test:300 |
弯曲文本 |
下载链接 |
OCR论文综述(含文字识别、文本检测、端到端和数据集合)相关推荐
- OCR文字识别—文本检测的算法
一.文字检测:通用目标检测(一阶段.两阶段) 二.Faster R-CNN 这个是通用目标检测的典型算法. 框架分为四大部分: 三.CTPN:两阶段的文本检测 四.FCN:一阶段 区分前景和背景. 五 ...
- 文字识别/文本检测数据集
1.Chinese Text in Wild (CTW) 32285张图像,1018402个中文字符(来自于腾讯街景); 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本 ...
- 论文翻译:自然场景文本检测与识别综述
论文翻译:自然场景文本检测与识别综述 引言 介绍 文章回顾 文本检测 文本识别 实验结果 总结和未来工作展望 引言 自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...
- 超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M
整理 | AI科技大本营 光学字符识别(OCR)技术已经得到了广泛应用.比如发票上用来识别关键字样,搜题App用来识别书本上的试题. 近期,这个叫做chineseocr_lite的OCR项目开源了,这 ...
- Github标星3K+,超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 光学字符识别(OCR)技术已经得到了广泛应用.比如发票上用来识别关键字样,搜题Ap ...
- 论文盘点:CVPR 2019 - 文本检测专题
作者丨燕小花 研究方向丨计算机视觉 CRAFT 论文主要思想 本文的主要思路是先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据 ...
- Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)
Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...
- [Python]利用百度AI的ocr实现屏幕内区域文字识别
整体思路 1.[截图](https://blog.csdn.net/weixin_44343083/article/details/112252207) 2.图片压缩(百度的ocr要求图片小于4M) ...
- mac 文字识别软件ocr_Easy Screen OCR Mac版(Mac文字识别效率助手)V1.1 最新版
Easy Screen OCR Mac版(Mac文字识别效率助手)是一款很优秀好用的Mac平台上的文字识别辅助工具.如果你需要一款好用的文字识别工具,小编带来的这款Easy Screen OCR Ma ...
最新文章
- python教程自带数据库_python教程自带数据库 | Python学哪个数据库
- c# 审批流引擎_小熊OA:流程引擎才能真正起到管理价值!
- js获取网页高度和宽度(备份)
- Java高阶入门N篇
- java jdk 环境不一致_jdk(多版本)安装注意!
- 推荐一个好用的epub转pdf工具
- 使用OpenCV探测来至运动的结构
- iPhone 13 投屏到 Windows 10 的办法
- 微星显卡拷机测试软件,显卡稳定性测试必备 微星Kombustor工具
- 模电、数电、电力电子、开关电源基础知识总结
- 使用VNC远程登录百度智能云服务器
- Excel取消合并单元格后自动填写内容
- Tungsten Fabric知识库丨更多组件内部探秘
- 软件估算与软件测量的区别是什么?
- 先进的半导体晶圆清洗技术
- ElasticSearch常用语法大全
- python自测单词软件_还在用背单词App?使用Python开发英语单词自测工具,助你逆袭单词王!...
- 站内文案编辑seo关键词优化技巧
- 如何用sql语句对性别的 约束条件让它只能填 男 或 女
- 图像形状特征(五)--自由式变形模板
热门文章
- 原生JS实现——自定义播放器
- 家用交流电风扇改微风档,改睡眠档,改6档(加电容方案,加档位)
- cups共享linux打印机_Linux学习之CUPS实现网络打印机
- 2007-03-02 日志 TMD,这世道!
- html360se,360安全浏览器全新版本SE10.1版上线
- 前沿AI技术体验:从文字直接产生图片,结果真的震撼! 非常有意思!
- “创新实践”项目介绍7:《看护服务机械狗》
- arcgis制作点浓度值三维图
- android add fragment,fragment中的add和replace方法的区别浅析
- 山东省计算机信息职业学院,山东信息职业技术学院