1.网络特点

1.端到段训练
2.自动处理变长序列
3.兼容基于词典与无词典模式

2.目前存在问题

1.对于序列识别,传统深度卷积DCNN输出长度固定,不能用于变长序列预测
2.变长识别问题可以使用检测+DCNN分类解决,但这种方法对于检测器有较高要求
3.基于词典的模式网络输出类别数量巨大,且难以范化到其他检测中去(例如中文,乐符OCR任务,新的任务需要新的词典)
4.存在方法:Hog feature+RNN,Hog feature无法端到段训练,RNN推理只依赖历史信息且存储的历史信息有限。

3.网络结构

CRNN网络结合了DCNN与RNN,网络由三部分组成
1.DCNN卷积
网络结构基于VGG并去掉全连接,第三四池化层使用1*2大小的池化窗口改变输出特征感受野以适配单词尺寸。用于提取输入图片特征到二维特征序列,每列特征与原始图片在水平方向上依次对应

2.循环层
使用Bi-LSTM构建特征序列,解决RNN上下文存储限制,解决LSTM只依赖过去信息的问题

3.转述层
转换每帧预测到标签序列,步骤:现移除重复标签,再移除“blank”空格

网络结构

叠加了两个Bi-LSTM以增加深度提升效果。网络训练使用了SGD,优化器Adadelta,使用生成数据集Synth,其中包含8百万图片与对应单词。训练数据完全使用生成数据集,测试使用真实场景图片。实验中CRNN获得了最好的效果且在其他序列识别任务中也有着不错的泛化性。

一文读懂CRNN(基于图像序列识别的端到端可训练网络)相关推荐

  1. 一文读懂CRNN+CTC文字识别

    转自:https://zhuanlan.zhihu.com/p/43534801 文字识别也是图像领域一个常见问题.然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行识别. 所以一般来说 ...

  2. 一文读懂CRNN+CTC(Connectionist Temporal Classification)文字识别

    先总结一把CTC,下面文档太长: CTC是一种Loss计算方法,用CTC代替Softmax Loss,TF和pytorch都有对CTC的实现,从而解决OCR或者语音识别中序列对齐的问题.CTC特点: ...

  3. 一文读懂RoCE,基于以太网的RDMA

    扫码关注笔者公众号linux网络虚拟化获取更多资料 RoCE全称RDMA over Converged Ethernet,从字面来看,也就是基于融合以太网的RDMA,所以在了解RoCE之前还得先认识下 ...

  4. 一文读懂傅立叶变换处理图像的原理

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 图 (a): (从左到右) (1) 原始图片 (2) 使用高斯低通 ...

  5. 2个相同的 stm32 can通讯不成功_一文读懂,基于 STM32 和 CAN 总线的温度监控系统的设计方法...

    1 系统总体方案概述 系统总体框图如图 1 所示,本系统采用主站+从站的结构,CAN 主站主要实现温度数据的存储以及 CAN 总线协议和串口协议之间的桥接,CAN 从站主要实现温度的采集.CAN 从站 ...

  6. 一文读懂Codex:基于Cosmos的跨链DeFi平台

    从最原始的计算机代码,0与1数字的组合,到具有不可磨灭虚拟特性的资产,从改变世界的"点对点的电子现金系统"到"全球最大的超级电脑"人们对于数字领域世界的不断探索 ...

  7. 一文读懂基于PN532和S50的NFC开发

    基于PN532和S50的NFC开发 1. NFC概述 NFC(Near Field Communication)近场通信,这个技术由非接触式射频识别(RFID)演变而来,由飞利浦半导体(现恩智浦半导体 ...

  8. ​一文读懂EfficientDet

    一文读懂EfficientDet. 今年年初Google Brain团队在 CVPR 2020 上发布了 EfficientDet目标检测模型, EfficientDet是一系列可扩展的高效的目标检测 ...

  9. 一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现

    一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现 导读:近日,马云.马化腾.李彦宏等互联网大佬纷纷亮相2018世界人工智能大会,并登台演讲.关于人工智能的现状与未来,他们提出了各自的观点,也引 ...

最新文章

  1. android之多媒体篇(二)
  2. atoi()函数定义
  3. golang make第三个参数的作用
  4. 用Keepalived实现PostgreSQL高可用
  5. IDEA用maven创建springMVC项目和配置(XML配置和Java配置)
  6. 公云(3322)动态域名更新API
  7. 成都拓嘉启远:拼多多评论置顶该怎样去弄
  8. 叉积的证明_矢量叉乘分配律的几何证明
  9. Mongodb常用查询
  10. idea 的注释在格式化空格问题
  11. Linux更改文件的权限
  12. 拨开国产 COS 系统的重重迷雾
  13. 木子-前端-方法标签属性小记(普通jsp/html篇)2018
  14. 锤粉往事:有人早已失望离开,有人还不想说再见
  15. 1715. 苹果和橘子的个数
  16. 字幕批量翻译 字体定制
  17. 车道线检测:ultra fast lane detection + 车道保持
  18. win10卸载电脑管家就蓝屏_win10系统电脑蓝屏的解决教程
  19. PhotoScan处理无人机航拍照片基本流程
  20. 解析人工智能的技术演变线索

热门文章

  1. 【福利】同性交友网站(github)知名项目(持续更新)
  2. android创建房间界面,自由之战3月25日安卓1.0.5更新_开房间玩法开启_蚕豆网新闻...
  3. 茶杯大小的狗狗,看一眼整个人都酥了!
  4. XP停止更新,腾讯电脑管家已于2月底推出了“扎篱笆”计划
  5. 蜜聊-密聊IM即时通讯部署文档搭建教程
  6. 华为云K8S创新,Cloud 2.0的正确打开方式
  7. ENSP模拟器防火墙增加内存
  8. 忘记远程Windows系统的密码,使用凭据还原登录系统
  9. 使用python 解罗马数字转整数
  10. 小程序video标签在(华为手机)无法播放.mp4长视频(ios上正常)