CenterNet: Keypoint Triplets for Object Detection

在目标检测方法中，基于关键点的方法会检测出大量不正确的边界框，这是由于没有对裁剪区域进行进一步的检查。本文提出了一种有效的解决方案，以最小的成本检测裁剪区域。本框架基于CornerNet，名为CenterNet，用一个三元组来表示一个目标，而不是一对点，提高了精准率和召回率。设计了两个定制的模块，级联corner pooling和center pooling，定制的模块，称为级联角池和中心池，它们分别发挥了丰富左上角和右下角收集的信息和在中心区域提供更可识别的信息的作用。

1、anchor base的缺陷

（1）需要大量设计大量的anchor，耗费资源，并且预设anchor的数量，大小，尺寸是困难的。
（2）anchor通常没有和ground-truth boxes对齐，这就加剧了分类任务的困难性。
为了克服这种困难，提出了基于关键点的检测方法CornerNet。Corner net检测目标的左上点和右下点，但是其性能受目标的全局信息限制。也就是说，每个目标是由一对角点表示的，因此该方法对检测目标的边界是敏感的，同时不知道该将那一对关键点分组为一对。因此经常产生一些不正确的边界框，大多数可以用互补信息，比如纵横比过滤掉。
为了解决这个问题，我们为CornerNet配备了感知每个建议区域内的视觉模式的能力，以便它能够自己识别每个边框的正确性。
直觉是如果预测的候选框与真实边界框有高IOU值，然后，中心键点在其中心区域被预测为同一类的概率很高。因此，在推理过程中，在将候选框生成为一对角键点之后，通过检查是否有同一类的中心键点位于其中心区域内来确定候选框是否确实是一个对象。
Cernert Pooling用于预测中心关键点，帮助中心关键点获取更丰富的目标视觉特征，可以更加容易的感知候选框的中心部分。通过在一个用于预测中心关键点的特征图上得到中心关键点的水平和垂直方向的最大求和响应来实现这一点。
级联corner pooling，它使得原始corner pooling模块具有感知内部信息的能力。通过在特征图上求目标的边界和内部是最大求和相应来实现。

2、Cornert存在的缺点

Cornert的错误率在Iou=0.5时达到32.7%，在检测小目标时达到60.3%，这有可能是因为CornerNet看不见边界框内部的区域。

3、将目标检测当作关键点的三元组

用一个中心点和一个角点来表示目标。
具体来说，在CornerNet的基础上嵌入了中心关键点的热图，并预测了中心关键点的偏移量。然后，利用cornerNet中提出的方法生成顶k包围盒。然而，为了有效地过滤掉不正确的包围框，利用检测到的中心关键点并采用以下步骤：
（1）根据它们的分数选择top-k中心关键点；
（2)使用相应的偏移量将这些中心关键点重新映射到输入图像；
(3）为每一个包围框定义一个中心区域，并且检查中心区域是否包含中心关键点。注意，检查的中心关键点的类标签应该与包围框的类标签相同。
（4）如果在中心区域检测到中心关键点，将保留包围框。包围框的分数将被这三个点的平均分数所取代，即左上角、右下角和中间关键点。如果在其中心区域中没有检测到中心关键点，则边界框将被删除。
包围框中心区域的大小影响检测效果。中心区域较小召回率低，中心区域大精度较低。所以本文提出一个尺度感知的中心区域，自适应包围框的大小。尺度感知的中心区域倾向于为一个小的包围盒生成一个相对较大的中心区域，而为一个大的包围盒生成一个相对较小的中心区域。
实际包围框与中心区域（c）应该满足：

其中n是奇数，决定中心区域的尺度。

4、丰富中心和角点的信息

（1）center pooling：物体的集合中心不一定传达可识别的信息。所以本文提出center pooling去捕获更丰富和可识别的视觉信息。backbone输出特征图，在其水平方向和垂直方向上找到最大值并将它们相加。figure 4（a）
(2)级联corner pooling：角通常在物体之外，缺乏局部的外观特征。corner pooling是在边界方向上找到最大值，从而确定角。但是其使得角对边敏感，为了解决这个问题，本文让corners看见目标的视觉信息。级联corner pooling的原理图figure4©。它首先沿边界查找边界最大值，然后沿边界最大值2的位置向内查找内部最大值，最后将两个最大值相加。通过这样做，角点获得了边界信息和对象的视觉模式。

图5(a)显示了中心池模块的结构。要在一个方向上取一个最大值，例如水平方向，我们只需要串联连接左池和右池。图5(B)显示了级联顶角池模块的结构。与角网[20]中的上角池相比，我们在上角池之前添加了一个左角池。

5、训练和推理

（1）训练：训练损失：

（2）推理：