深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head 及其PyTorch实现

2024-07-08 15:52:20

深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios及其PyTorch实现
TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios
PDF: https://arxiv.org/pdf/2108.11539.pdf

1 概述

传统的目标检测算法应用到无人机目标检测场景中，通常会遇到三个问题：
a. 由于无人机飞行高度变化，目标尺度变化较大。
b. 俯拍场景通常包含密集的目标，目标间会存在遮挡。
c. 俯拍场景较大导致混淆地理元素。

2 TPH-YOLOv5

2-1 数据增强策略以及工作流

基于yolov5的改进策略

增加了一个预测头来处理目标的大尺度方差；
将Transformer Prediction Heads (TPH)集成到YOLOv5中，可以在高密度场景中准确定位目标；
将CBAM集成到YOLOv5中，帮助网络在区域覆盖范围大的图像中找到感兴趣的区域；
提供有用的Tricks，并过滤一些无用的Trick，用于无人机捕获场景的目标检测任务；
使用self-trained classifier来提高对一些容易混淆的类别的分类能力。

2-2 网络结构

2-2-1 Prediction head for tiny objects

VisDrone2021数据集包含了很多非常小的目标，因此增加一个用于微小物体检测的预测头。
增加检测头后，虽然增加了计算和存储成本，但对微小物体的检测性能得到了很大的提高。

2-2-2 Transformer encoder block

用Transformer encoder块替换了YOLOv5原版中的一些卷积块和CSP bottleneck blocks。
与CSPDarknet53中原有的bottleneck blocks相比，Transformer encoder block可以捕获全局信息和丰富的上下文信息。
只在head部和backbone顶端应用Transformer encoder block形成transformer Prediction head(TPH)。

2-2-3 CBAM

2-2-4 Self-trained classifier

提出了一个Self-trained classifier用于易混淆样本的分类。通过裁剪ground-truth边界框并将每个图像patch的大小调整为64 x 64来构建训练集。

3 实验结果

极小目标过滤
针对resize后，小于3个像素的目标，在训练过程中，使用gray squares可以提升约0.2mAP

深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head 及其PyTorch实现相关推荐

[深度学习论文笔记]TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation
TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation TransBTSV2:用于医学图像分割的宽 ...
深度学习论文阅读图像分类篇（三）：VGGNet《Very Deep Convolutional Networks for Large-Scale Image Recognition》
深度学习论文阅读图像分类篇(三):VGGNet<Very Deep Convolutional Networks for Large-Scale Image Recognition> Ab ...
深度学习论文阅读目标检测篇（三）：Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》
深度学习论文阅读目标检测篇(三):Faster R-CNN< Towards Real-Time Object Detection with Region Proposal Networks&g ...
【更新于12.29】深度学习论文汇总
本博客用于记录自己平时收集的一些不错的深度学习论文,近9成的文章都是引用量3位数以上的论文,剩下少部分来自个人喜好,本博客将伴随着我的研究生涯长期更新,如有错误或者推荐文章烦请私信. 深度学习书籍和入 ...
深度学习论文阅读目标检测篇（七）中英对照版：YOLOv4《Optimal Speed and Accuracy of Object Detection》
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...
[深度学习论文笔记]医学图像分割U型网络大合集
[深度学习论文笔记]医学图像分割U型网络大合集 2015 U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI ...
深度学习论文阅读（四）：GoogLeNet《Going Deeper with Convolutions》
深度学习论文阅读(四):GoogLeNet<Going Deeper with Convolutions> Abstract 摘要 1.Introduction 引言 2. Related ...
深度学习论文阅读目标检测篇（二）：Fast R-CNN《Fast R-CNN》
深度学习论文阅读目标检测篇(二):Fast R-CNN<Fast R-CNN> Abstract 摘要 1. Introduction 引言 1.1 RCNN and SPPnet 1.2 ...
深度学习论文阅读目标检测篇（五）中英对照版：YOLOv2《 YOLO9000: Better, Faster, Stronger》
深度学习论文阅读目标检测篇(五)中文版:YOLOv2< YOLO9000: Better, Faster, Stronger> Abstract 摘要 1. Introduction 1. ...

最新文章

热门文章