DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos

摘要

本文提出了一种称为DeepPyramid的语义分割网络，该网络可以使用三个新颖性来应对这些挑战：
（1）金字塔视图融合模块，该模块提供以输入卷积特征图中的每个像素位置为中心的周围区域的多种角度全局视图；
（2）可变形金字塔接收模块，其使得能够适应感兴趣对象中的几何变换的宽的可变形感受野成为可能；
（3）自适应地监督多尺度语义特征图的专用金字塔损失

这些模块可以有效地提高语义分割性能，特别是在对象具有透明性、可变形性、可扩展性和钝边的情况下
代码地址

本文方法

基本的特征金字塔结构

模块细节

Pyramid View Fusion (PVF)
首先，通过使用核大小为1的卷积层来抑制计算复杂性，从而形成bottleneck。然后，卷积特征图被馈送到四个并行分支：一个全局平均池化层，然后是上采样，以及三个平均池化层次，它们具有逐渐变大的滤波器大小和1的公共步长。请注意，如PSPNet所示，使用一个像素步长对于获得逐像素的集中金字塔视图至关重要，而不是逐区域的金字塔注意力。然后将输出的特征图连接起来，并将其馈送到具有四个组的卷积层中。该层负责在降维过程中提取通道间依赖关系。然后，在被馈送到层归一化函数之前，应用规则卷积层来提取联合的信道内和信道间相关性。
Deformable Pyramid Reception (DPR)
首先连接来自编码器的细粒度特征图和来自前一层的粗粒度语义特征图。然后，这些特征被馈送到三个平行的分支中
DPR模块中使用的可变形块由应用于输入特征图的规则卷积层组成，以计算可变形卷积的偏移场。偏移字段为卷积滤波器中的每个元素提供两个值（水平偏移和垂直偏移）。因此，对于大小为3×3的内核，偏移场的输出通道的数量等于18。受dU-Net的启发，偏移场的卷积层后面跟着一个激活函数，我们将其设置为硬正切双曲函数，因为它在计算上是高效的，并将偏移值剪裁到[-1，1]的范围内。可变形块使用学习的偏移值以及具有预定膨胀率的卷积特征图来提取对象自适应特征。

实验结果

DeepPyramid:在白内障手术视频中实现金字塔视图和可变形金字塔接收的语义分割相关推荐

结合运动流的时间先验在微创手术视频中的器械分割
论文:Incorporating Temporal Prior from Motion Flow for Instrument Segmentation in Minimally Invasive S ...
icd植入是大手术吗_白内障手术为何要植入人工晶体？便宜的人工晶体会影响视力吗？...
一.关于白内障手术和人工晶体那些事儿 1.白内障手术为什么要植入人工晶体? 答:白内障手术摘除晶状体,眼内就缺了零件,植入人工晶体的目的,就是解决没有晶状体视物无法放大看远的缺陷,装配人工晶体,术后视 ...
语义分割-Unsupervised Domain Adaptation in Semantic Segmentation：a Review语义分割中的无监督领域自适应：综述
Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...
语义分割中的一些模型的分类汇总
语义分割是深度学习中的一个重要应用领域.自Unet提出到现在已经过去了8年,期间有很多创新式的语义分割模型.简单的总结了Unet++.Unet3+.HRNet.LinkNet.PSPNet.DeepL ...
用TensorFlow.js在浏览器中进行实时语义分割 | MixLab算法系列
语义分割是监测和描绘图像中每个感兴趣对象的问题当前,有几种方法可以解决此问题并输出结果如下图示: 语义分割示例这种分割是对图像中的每个像素进行预测,也称为密集预测. 十分重要且要注意的是,同一类 ...
开源库 | 监控视频中的目标检测与跟踪
介绍一份来自卡内基梅隆大学开源的主要用于监控视频中目标检测与跟踪的开源库:Object_Detection_Tracking . 其赢得了 2019 Activities in Extended Vi ...
Dogfight ：从无人机视频中检测无人机
摘要随着机载车辆变得越来越自主和无处不在,发展探测周围物体的能力变得至关重要.本文试图解决从其他飞行无人机中探测到无人机的问题.源无人机和目标无人机的不稳定运动.小尺寸.任意形状.大强度变化和遮挡使 ...
视频中的3D人体姿态估计(3D human pose estimation in vide)--------Facebook research: VideoPose3D
视频中的3D人体姿态估计(3D human pose estimation in video) 解读Facebook AI Research in CVPR2019: <3D human pos ...
视觉麦克风:从视频中还原语音
The Visual Microphone: Passive Recovery of Sound from Video Abstract 当声音撞击物体时,会引起物体表面的轻微振动.我们展示了如何仅使 ...

DeepPyramid:在白内障手术视频中实现金字塔视图和可变形金字塔接收的语义分割

文章目录

DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos

摘要

本文方法

模块细节

实验结果

DeepPyramid:在白内障手术视频中实现金字塔视图和可变形金字塔接收的语义分割相关推荐

最新文章

热门文章