（IS 19）On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters

会议：INTERSPEECH 2019
论文：On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters（基于参数调制的基于核的滤波器学习可解释的CNN）
作者：Erfan Loweimi, Peter Bell, Steve Renals

Abstract

我们研究了在卷积神经网络（CNN）框架中使用基于参数核的滤波器进行直接波形建模的问题，该模型建立在SincNet之上，SincNet是使用基本正弦（sinc）函数实现可学习的带通滤波器的CNN。为此，研究了学习由调制的基于核的基带滤波器组成的滤波器组的一般问题。与标准CNN相比，此类模型的参数更少，学习速度更快，并且需要的训练数据也更少。它们也更适合于人类的解释，为在架构中嵌入一些可感知的先验知识铺平了道路。我们研究了用三角形，伽马通和高斯滤波器替换SincNet的矩形滤波器，从而提高了模型的灵活性并降低了电话错误率。我们还将从感知和统计的角度探讨为TIMIT电话识别而学习的学习过滤器的属性。我们发现直接在波形上运行的第一层滤波器与设计和工程标准滤波器（例如梅尔级三角滤波器）中使用的先验知识相一致。也就是说，网络学会更多地关注数据质心所在的感知上显着的频谱邻域，并且方差和香农熵最高。

6. Conclusions

本文研究了使用基于参数调制核的滤波器通过CNN直接进行波形建模的问题。这个通用框架建立在SincNet（带有Sinc内核的CNN）上。在提出的结构中，模型变量是内核参数和调制器频率。研究了平方正弦，伽马通和高斯核，并从感知和统计角度研究了学习滤波器的性质。结果表明，学习的滤波器组不仅更加关注具有更高感知重要性的光谱带，而且更加关注方差和香农熵（信息）最高的区域。带有参数调制内核的CNN的部署以及DNN的可解释性的提高，为通过使用启发性内核将一些先验知识嵌入网络体系结构铺平了道路。这为将来的研究开辟了广阔的途径。

1. Introduction

机器学习，并已在各种任务（例如[1,2]）中显着提高了性能。
然而，尽管从工程学的角度来看，在构建可靠的大规模模式识别系统方面取得了显着进展，但对其深层结构的理解仍然很浅。这触发了旨在将DNN解密为黑匣子的工作量扩大，例如[3-6]。

由于卷积过程及其在进行傅立叶变换时的作用，卷积神经网络（CNN）更易于解释和理解[7，8]。当第一层中的滤波器直接对原始波形进行操作时，尤其如此。在这种情况下，还可以将学习到的过滤器与使用反映人类听觉系统特性的先验知识设计的手工过滤器进行比较。但是，CNN过滤器通常在时域或频域中都是人类无法解释的，并且与以感知为动力的手工过滤器几乎没有相似之处。

SincNet是标准非参数CNN的参数对应物，在标准非参数CNN中，滤波器是仅具有两个参数的调制基数正弦（sinc）函数：低和高截止频率。在频域中，此类滤波器表现为理想的带通滤波器，并且具有很高的解释性。一般而言，与常规CNN相比，SincNet具有（选择好的）参数模型的优点：更高的可解释性和更少的参数，需要更少的训练数据并提供更快的学习/收敛性[9，10]。此外，原始波形建模允许合并相位频谱信息[11-18]，而在基于傅立叶变换幅度的功能（例如MFCC）中却被忽略了。

在本文中，我们推导了具有参数化基于内核的过滤器的可解释CNN的更一般形式。 SincNet是此类模型的特例，其中内核功能是基数正弦。推导了一个通用公式后，我们探索了Sinc函数的三个替代方案：平方Sinc（sinc2），伽马通[19-21]和高斯核，它们分别导致了三角形，伽马通和高斯滤波器组。

此外，我们进行了一系列分析，以进一步探索上述框架中学习的滤波器的特征。研究发现，网络学会了更多地关注具有更高感知重要性的频谱邻域（基于反映人类听觉系统特性的公认的先验知识），以及（在统计上）数据质心所在的位置，方差和香农熵（信息）[22]最高。

本文的其余部分组织如下。在第2节中回顾了SincNet之后，在第3节中，我们得出了带有参数调制的基于核的滤波器的可解释CNN的一般公式。在第4节中，进行了一系列研究，以探索学习到的过滤器的属性以及它们与公认的先验知识的相似性。第5节包括有关电话识别任务的实验结果以及讨论，第6节总结了论文。

2. SincNet: A CNN with Sinc Kernel

SincNet [9]是标准非参数CNN的参数对应物，其中滤波器的脉冲响应是两个Sinc函数的减法，从而形成了理想的带通滤波器[23]。因此，在SincNet中，每个滤波器的特征仅在于两个变量：低（f1）和高（f2）截止频率。滤波器组的参数集由下式给出：

略~

3. Kernelised CNNs

4. Perceptual and Statistical Studies onKernel-based CNNs

在本节中，我们将在建议的基于内核的框架中探索学习到的滤波器的属性，并将其与基于感知先验知识设计的手工滤波器组进行比较。图3描绘了Sinc2Net和GammaNet为TIMIT [28]电话识别而学习的滤波器组。为了获得更好的可视化效果并避免混乱，水平轴限制为4 kHz（TIMIT采样率为16 kHz）。

4.1. Centre Frequency Distribution
图4显示了使用相同数量的滤波器（128）和50％重叠时，基于内核的调制CNN滤波器以及均匀（uni），Mel，Bark和ERB滤波器组的中心频率直方图（分布）提到规模。如图所示，与人类听觉系统激发的感知尺度一致，明显有更多的滤波器在低于2000 Hz（直方图拐点）的频率下运行。这意味着网络在处理那些频谱分量时学会了更具区分性和选择性。

4.2. Filter Quality Factor
为了研究滤波器的带宽以及相应的中心频率，我们使用了品质因数（Q）[29]，即滤波器中心频率与其带宽之比[30]。常规滤波器的行为几乎类似于恒定Q滤波器（高于1000 Hz，图5），因此，当滤波器中心频率增加时，带宽会增加，尽管分数保持不变。在较高的频率下，滤波器会变宽，这意味着较差的光谱分辨率。

与常规滤波器不同，对于Sinc2Net，滤波器的Q因子不是恒定的，滤波器带宽变化也不是单调的。然而，执行线性回归表明，滤波器的Q因子随中心频率的增加而增加，这与对感知尺度的Q因子进行线性回归时相似。 SincNet，GammaNet和GaussNet也观察到了这种趋势。为了验证这种趋势不是随机效应，我们使用不同的初始化方法进行了进一步的实验：在所有运行中都观察到相同的趋势（图6）。另外，图5指出，在训练过程中监视Q因子可能会有用，以避免离群值滤波器。

4.3. GammaNet Filter Order
伽马通滤镜有一个额外的参数，滤镜阶数N（i）（第3.2节）。四个典型的阶数与耳蜗滤波器有很好的相关性[19,21,31]。为了探索这种关系，我们训练了一个GammaNet，并允许每个过滤器具有单独的顺序。在训练过程中，对过滤器阶数没有特别的限制。表1显示了学习到的过滤器顺序的统计信息。可以看出，学习顺序的平均值为4.3，接近于典型值。

4.4. Learned filters and Statistical Properties of the Data
到目前为止，我们已通过将其与公认的先验知识进行比较，从感知的角度研究了它们的最优性。了解网络最关注的区域与训练数据的统计属性之间的关系（如果有）也很有见识。为此，我们将学习滤波器的频率响应的平均值与数据的统计特性进行比较，即数据的平均值，每个频点处的标准差（std）和Shannon熵。所有TIMIT训练数据（约140万帧）都用于估算统计数据。

如图7所示，该网络不仅学会在感知上重要的光谱带上具有更高的选择性，而且更加关注具有最高统计值的光谱部分。也就是说，平均频率响应的峰值（网络最常参与的频点）位于数据质心所在的频谱邻域中，并且方差和香农熵最高。

5. Experimental Results

5.1. Setup
在TIMIT [28]电话识别上比较了不同的体系结构。初始比对取自于TIMIT的Kaldi [32]标准配方建立的模型。 DNN模型是使用PyTorch-Kaldi [33,34]标准配方建立的，具有相同的超参数设置，包括200ms帧长和10ms帧移。对于所有型号，使用相同的网络。在基于内核的CNN的第一层之上，使用了由具有1024个节点和ReLU [35]激活的五层组成的MLP。纪元数设置为24，并使用RMSProp [36]进行优化。

5.2. Results and Discussion
表2显示了使用滤波器组功能（25毫秒）以及各种基于CNN的模型训练的MLP的PER，这些模型将原始波形作为输入（200毫秒）。可以看到，CNN和基于内核的模型优于常规功能。与SincNet相比，所提出的基于内核的技术导致PER稍低。差异仍然很低，因为，例如，三角形或伽马通滤光片在生物学上似乎更合理，并在浅层GMM-HMM系统中带来更好的性能[37，38]，五个MLP隐藏层可以补偿低与SincNet矩形滤波器相关联的最高次优性。
最后，我们考虑使用基于内核的滤波器进行直接波形建模的最佳帧长。如表3所示，所有内核的最佳帧长度约为200毫秒，这比基于傅立叶的前端中使用的常规25毫秒要大得多。这允许网络学习短期到中期的表示形式，这在某些应识别（例如说话者识别）或抑制（例如说话者无关的ASR）某些中期语音属性的任务中可能有用。

为什么对于此类模型，200ms的帧长最佳？在其他将原始波形作为输入的ASR系统中，通常使用较短的帧[39-43]。尽管有必要使用其他数据库和任务进行进一步的探索，但可能的答案包括：学习某种时间掩蔽[44]；协同发音[45]；或最佳音节模型，注意英语的平均音节长度为200ms [46]。