学习笔记：Fully Convolutional Networks for Segmantic Segmentation

1.感受野的概念（receptive fields）

该论文中的定义是“Locations in higher layers correspond to the locations in the image they are path-connected to,which are called receptive fields”解释起来就是较高层的位置对应于它们被路径连接到的原图像中的位置被称为它们的感受野。
具体来说就是：
如上图所示，就是当前层中的一个像素是通过上层 n×n n\times n个像素卷积而得，同时这 n×n n\times n个像素也是通过再上一层的像素卷积而来，一直推到输入的原图，那么这个小像素点在原图像上映射的区域大小称为该像素的感受野。
那么如何计算感受野的大小：
1.第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小。
这点很好理解，因为上层就是原图，那么该层的每个像素点都是由原图 n×n n\times n个像素卷积而成，所以这个滤波器大小 n×n n\times n就是感受野大小。
2.在高层的感受野跟滤波器大小以及步长(stride)有关。
关于步长的概念，即为滤波器完成一次卷积后移动的大小。
每一层的strides定义为前面所有层的stride步长之积，即为：

strides(l)=stride(1)∗stride(2)...∗stride(l−1)

strides(l) = stride(1) * stride(2)...*stride(l-1)
感受野大小的计算采用从深层到前层的方式计算，即先计算最深层在前一层上的感受野，然后逐渐反馈到第一层，公式具体记如下：
for layer in (top to down):

Vrcp=[(Vrcp−1)×stride]+Size(conv)

V_{rcp}=[(V_{rcp}-1)\times stride]+Size(conv)
对应上图假如第一幅图是原图，第二幅图是卷积层，第三幅图是池化层。则卷积层对应的感受野是卷积核的大小3*3，池化层的大小为2*2，步长为1，对应公式即为：

Vrcp=[(3−1)+1]+2=4

V_{rcp} = [(3-1)+1]+2=4
所以池化层的感受野为4*4。依次类推可求得更深层的感受野。

2. 全连接—>全卷积

典型的识别CNN网络（例如LeNet，AlexNet）使用像素固定的input然后输出跟空间无关的output。它们的全连接层有固定的维度并且丢掉空间坐标。但是，这些全连接层可以看做是包含整个输入空间的卷积层。比如AlexNet中的第6，7是两个长度为4096的全连接层，第8层是一个长度为1000的全连接层，对应1000个类的概率输出。在FCN的思想中，可以将这三层分别看成是卷积核的大小(通道数，宽，高)分别为（4096,1,1）,（4096,1,1）,（1000,1,1）的卷积层。由于整个网络只有卷积层，所以称为全卷积网络。
这样做有什么好处呢？

1.The spatial output maps of these convolutionalized models make them a natural choice for dense problems like semantic segmentation.
意思是说：FCN的空间输出映射使得它对于语义分割问题有很大优势。
2.With ground truth available at every output cell,both the forward and backward passes are straightforward,and both take advantage of the inherent computational efficency.
意思是说：FCN的前向传播和反向传播都很直接，可以提升计算效率。

3.上采样upsampling

以因子f做上采样就是以步长为1/f做卷积。这里upsampling的操作可以看做是输出步长为f的解卷积（deconvolution）,它翻转了前面所说的卷积过程的前向和后向，所以FCN是一种end-to-end learning。
经过多次卷积和pooling以后，得到的图像越来越小，分辨率越来越低。到图像最小的一层时，所产生图叫做heatmap热图，热图就是我们最重要的高维特征图，得到高维特征的heatmap之后就是最重要的一步也是最后的一步对原图像进行upsampling，把图像放大到原图像的大小。

4.skip Layer

The 32 pixel stride at the final prediction layer limits the scale of detail in the upsampled output.
最后预测层的32像素的步长限制了上采样输出的细节特征。所以获得的图像的边缘性很差。

解决办法是以更精细的步长增加预测层与低层间的连接。
方法如下：

可以发现效果越来越好：

参考：
1.http://blog.csdn.net/gzq0723/article/details/53138430
2.http://www.cnblogs.com/gujianhan/p/6030639.html
3.http://blog.csdn.net/smf0504/article/details/52745052