人体姿态估计—

卷积网络中的感受野

1.感受野（Receptive field (RF)）是什么？

在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小。

大家知道现在CNN深度学习越来越深
为了压缩计算量越到后面的层数往往feature size越来越小
但参与“决策”往往是最后几层网络（当然有FPN等神迹）
因此
如何保证小的网络仍然具有全局性是构建CNN网络的一个重要依据
RF便是一个考量feature map中每个神经元具有多少全局性的指标。

2.CNN中感受野的计算

从直观上讲，感受野就是视觉感受区域的大小。在卷积神经网络中，感受野的定义是决定某一层输出结果中一个元素所对应的输入层的区域大小。

感受野计算时有下面的几个情况需要说明：

a)第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小；
b)深层卷积层的感受野大小和它之前所有层的滤波器大小和步长有关系；
c)计算感受野大小时，忽略了图像边缘的影响，即不考虑padding的大小。

至于如何计算感受野，我的建议是top to down的方式，即从网络的最后向前推，感受野的大小是由kernel size（filter）和stride size（步长）一起决定的，公式: rfsize = f(out, stride, ksize) = (out - 1) * stride + ksize，其中out是指上一层感受野的大小，stride是当前层stride，最后一层不带入公式，它的ksize是前一层的out。
理解：
Feature Map的尺寸=(input_size + 2 * padding_size − ksize)/stride+1
根据定义感受野是决定某一层输出结果中一个元素所对应的输入层的区域大小
这里指的是要求解的那层的一个元素也就是最初输入的out=1:
rfsize = f(out, stride, ksize) = (out - 1) * stride + ksize
感受野近似于用feature map反推input_size ，只是不考虑padding。

例1：
以VGG16为例：
一个元素，所以out＝1
pool2: rfsize= (1-1)*2+2=2
conv1_2: rfsize=(2-1)*1+3=4
conv1_1: rfsize= (4-1)*1+3=6

例2：
r指感受野 s：stride，p：padding，k：filter

layer1对layer0：
out=1
(1-1)*2+3=3

layer2对layer0：
out=1
(1-1)*2+3=3
(3-1)*2+3=7

3. 计算Receptive field size的小程序

FOMORO AI：https://fomoro.com/research/article/receptive-field-calculator

4.参考：

https://www.cnblogs.com/34fj/p/9139756.html
https://www.zhihu.com/question/66954030/answer/715416325
https://blog.csdn.net/weixin_43951539/article/details/100759414
https://fomoro.com/research/article/receptive-field-calculator#3,2,1,SAME;3,1,1,SAME