【学习笔记】神经网络的计算量和参数量估计

评估计算量指标

每秒浮点操作次数FLOPS（FLoating point OPerations per Second），来衡量GPU的运算能力。
乘加数MACC（Multiply-ACCumulate operation），或者叫MADD，来衡量模型的计算量。

模型最终的的速度，不仅仅是和计算量多少有关系，还和诸如内存带宽、优化程度、CPU流水线、Cache之类的因素也有很大关系。

全连接层计算量和参数量估计

对于输入为 $I$ ，输出为 $J$ 的全连接层，其权重 $W$ 存储在 $\times J$ 的矩阵中。

计算量为 $\times J$ MACC 或 $\times J$ FLOPS。
它的参数分别是权重 $W$ 和偏置 $b$ ，所以参数量为 $\times J + J=(I+1) \times J$

激活函数计算量

激活函数没有参数，所以参数量为0。

ReLU计算操作为 $y=\max(x,0)$ ，所以对于输出为 $J$ 个神经元，计算量为 $J$ FLOPS。
Sigmoid计算操作为 $y=1/(1+\exp(-x))$ ，所以对于输出为 $J$ 个神经元，计算量为 $\times 4$ FLOPS。
Tanh计算操作为 $y=(\exp(x)-\exp(-x))/(\exp(x)+\exp(-x))$ ，所以对于输出为 $J$ 个神经元，计算量为 $\times 8$ FLOPS。

LSTM计算量和参数量估计

LSTM包含4个非线性变换，每一种非线形变换可视作一个全连接层。令 $E$ =embedding_size， $H$ =hidden_size。其中，第一层是 $x_i$ 和 $h_i$ 的结合，维度就是 $E + H$ ，第二层就是输出层，维度为 $H$ 。四个非线性变换中，还会对全连接层的输出进行激活函数计算（三个Sigmoid和一个Tanh）。除此之外，LSTM除了在四个非线性变换中的计算，还有三个矩阵乘法（不是点积）、一个加法、一个Tanh计算。

计算量为 $\times H \times 4$ MACC，或 $\times H \times 8 + H \times (H+20)$ FLOPS。
参数量为： $\times H +H) \times 4$

卷积层计算量和参数量估计

对于输入为 $H_{in} \times W_{in} \times C_{in}$ ，输出为 $H_{out} \times W_{out} \times C_{out}$ 的卷积层，输出的每一个像素对应了一个立体卷积核 $\times K \times C_{in}$ 。

计算量为 $\times K \times C_{in} \times H_{out} \times W_{out} \times C_{out}$ MACC。
参数量为 $\times K \times C_{in} \times C_{out} + C_{out}$ 。

深度可分离卷积层

深度可分离卷积分为两个操作，深度卷积和 $1\times1$ 常规卷积。

计算量为： $\times K \times C_{in} \times H_{out} \times W_{out} + C_{in} \times H_{out} \times W_{out} \times C_{out}=C_{in} \times H_{out} \times W_{out} \times (K \times K \times C_{out})$ 。
参数量为 $\times K \times C_{in} + 1 \times 1 \times C_{in} \times C_{out}=C_{in} \times (K \times K + C_{out})$ 。

Batch normalization

BN的计算操作为 $\gamma \frac{y-\mu}{\sqrt{\sigma^{2}+\epsilon}}+\beta$

y−μ+β。每个通道都有自己的

\gamma,\beta,\mu,\sigma^{2}

，因此，如果卷积层的输出中有

C

个通道，则BN层将学习

\times 4

个参数。

池化层

池化操作不使用点积，因此不能用MACC测量。这种附加层的计算量与卷积层、全连接层相比非常小，通常可以忽略不计。

Concate层

连接操作通常不需要单独的复制步骤，不需任何参数和计算。