深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios及其PyTorch实现
TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios
PDF: https://arxiv.org/pdf/2108.11539.pdf

1 概述

传统的目标检测算法应用到无人机目标检测场景中,通常会遇到三个问题:
a. 由于无人机飞行高度变化,目标尺度变化较大。
b. 俯拍场景通常包含密集的目标,目标间会存在遮挡。
c. 俯拍场景较大导致混淆地理元素。

2 TPH-YOLOv5

2-1 数据增强策略以及工作流


基于yolov5的改进策略

  • 增加了一个预测头来处理目标的大尺度方差;
  • 将Transformer Prediction Heads (TPH)集成到YOLOv5中,可以在高密度场景中准确定位目标;
  • 将CBAM集成到YOLOv5中,帮助网络在区域覆盖范围大的图像中找到感兴趣的区域;
  • 提供有用的Tricks,并过滤一些无用的Trick,用于无人机捕获场景的目标检测任务;
  • 使用self-trained classifier来提高对一些容易混淆的类别的分类能力。

2-2 网络结构

2-2-1 Prediction head for tiny objects

VisDrone2021数据集包含了很多非常小的目标,因此增加一个用于微小物体检测的预测头。
增加检测头后,虽然增加了计算和存储成本,但对微小物体的检测性能得到了很大的提高。

2-2-2 Transformer encoder block

  • 用Transformer encoder块替换了YOLOv5原版中的一些卷积块和CSP bottleneck blocks。
  • 与CSPDarknet53中原有的bottleneck blocks相比,Transformer encoder block可以捕获全局信息和丰富的上下文信息。
  • 只在head部和backbone顶端应用Transformer encoder block形成transformer Prediction head(TPH)。

2-2-3 CBAM

2-2-4 Self-trained classifier

提出了一个Self-trained classifier用于易混淆样本的分类。通过裁剪ground-truth边界框并将每个图像patch的大小调整为64 x 64来构建训练集。

3 实验结果

极小目标过滤
针对resize后,小于3个像素的目标,在训练过程中,使用gray squares可以提升约0.2mAP

深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head 及其PyTorch实现相关推荐

  1. [深度学习论文笔记]TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation

    TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation TransBTSV2:用于医学图像分割的宽 ...

  2. 深度学习论文阅读图像分类篇(三):VGGNet《Very Deep Convolutional Networks for Large-Scale Image Recognition》

    深度学习论文阅读图像分类篇(三):VGGNet<Very Deep Convolutional Networks for Large-Scale Image Recognition> Ab ...

  3. 深度学习论文阅读目标检测篇(三):Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》

    深度学习论文阅读目标检测篇(三):Faster R-CNN< Towards Real-Time Object Detection with Region Proposal Networks&g ...

  4. 【更新于12.29】深度学习论文汇总

    本博客用于记录自己平时收集的一些不错的深度学习论文,近9成的文章都是引用量3位数以上的论文,剩下少部分来自个人喜好,本博客将伴随着我的研究生涯长期更新,如有错误或者推荐文章烦请私信. 深度学习书籍和入 ...

  5. 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》

    深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...

  6. [深度学习论文笔记]医学图像分割U型网络大合集

    [深度学习论文笔记]医学图像分割U型网络大合集 2015 U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI ...

  7. 深度学习论文阅读(四):GoogLeNet《Going Deeper with Convolutions》

    深度学习论文阅读(四):GoogLeNet<Going Deeper with Convolutions> Abstract 摘要 1.Introduction 引言 2. Related ...

  8. 深度学习论文阅读目标检测篇(二):Fast R-CNN《Fast R-CNN》

    深度学习论文阅读目标检测篇(二):Fast R-CNN<Fast R-CNN> Abstract 摘要 1. Introduction 引言 1.1 RCNN and SPPnet 1.2 ...

  9. 深度学习论文阅读目标检测篇(五)中英对照版:YOLOv2《 YOLO9000: Better, Faster, Stronger》

    深度学习论文阅读目标检测篇(五)中文版:YOLOv2< YOLO9000: Better, Faster, Stronger> Abstract 摘要 1. Introduction 1. ...

最新文章

  1. usleep延时0.毫秒_LabVIEW从0到1系列视频培训_第4讲全集_操作例程说明
  2. C#中形态各异的class
  3. 网络基础2(分层模型,通信过程,以太网,ARP协议格式和具体功能详解)
  4. mysql游标的用法及作用_Mysql 游标的用法及其作用
  5. matlab流量结构分析,科学网-分享求解“结构分解分析(SDA)”各项均值的MATLAB程序-计军平的博文...
  6. 成为嵌入式高手,少不了这100多个软硬件开源项目!
  7. 导入tkinter出错
  8. 练习2-3 输出倒三角图案
  9. Parallels Desktop克隆出来的虚拟机拥有相同的SSH KEY的修改方法
  10. java俄罗斯方块七中图形类_shell脚本俄罗斯方块--代码真正详解
  11. php 美团配送 生成签名
  12. android apk安装工具,安卓装机必备工具!一键批量安装应用apk
  13. 方向比努力重要,能力比知识重要,健康比成绩重要,生活比文凭重要,情商比智商重要
  14. 充满希望的新的一年!
  15. 【开源工程】STM32C8T6+ADC信号采集+OLED波形显示
  16. QT 带 进度条 解压缩文件方法 - QuaZip
  17. Windows10系统安装软件时显示“无法访问Windows Installer服务。Windows Installer没有正确安装时可能发生这种情况。” or “错误2:系统找不到指定的文件”
  18. 通俗易懂和你聊聊寄存器那些事(精美图文)
  19. 微型计算机组装的目的,微机组装实训报告范文
  20. ping www.baidu.com出现www.a.shifen.com

热门文章

  1. CreateFileMapping函数
  2. Terminator常用快捷键
  3. qq聊天编辑器 html,HTML编辑器
  4. lg 传奇 手机 java_LG G650 java手机游戏全攻略
  5. 计算机网络cdma编码实验,计算机网络CDMA练习题(Computer network CDMA exercises).doc...
  6. Imagemagick查看版本命令
  7. springboot启动源码解析(三):初始化启动上下文、初始化监听器列表、发布开始启动事件
  8. 每日学术速递5.13
  9. 信息周刊:微软Vista百问
  10. mysql.5.7.18_mysql 5.7.18 安装配置方法图文教程(CentOS7)