会议:INTERSPEECH 2019
论文:On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters(基于参数调制的基于核的滤波器学习可解释的CNN)
作者:Erfan Loweimi, Peter Bell, Steve Renals

Abstract

我们研究了在卷积神经网络(CNN)框架中使用基于参数核的滤波器进行直接波形建模的问题,该模型建立在SincNet之上,SincNet是使用基本正弦(sinc)函数实现可学习的带通滤波器的CNN。为此,研究了学习由调制的基于核的基带滤波器组成的滤波器组的一般问题。与标准CNN相比,此类模型的参数更少,学习速度更快,并且需要的训练数据也更少。它们也更适合于人类的解释,为在架构中嵌入一些可感知的先验知识铺平了道路。我们研究了用三角形,伽马通和高斯滤波器替换SincNet的矩形滤波器,从而提高了模型的灵活性并降低了电话错误率。我们还将从感知和统计的角度探讨为TIMIT电话识别而学习的学习过滤器的属性。我们发现直接在波形上运行的第一层滤波器与设计和工程标准滤波器(例如梅尔级三角滤波器)中使用的先验知识相一致。也就是说,网络学会更多地关注数据质心所在的感知上显着的频谱邻域,并且方差和香农熵最高。

6. Conclusions

本文研究了使用基于参数调制核的滤波器通过CNN直接进行波形建模的问题。 这个通用框架建立在SincNet(带有Sinc内核的CNN)上。 在提出的结构中,模型变量是内核参数和调制器频率。 研究了平方正弦,伽马通和高斯核,并从感知和统计角度研究了学习滤波器的性质。 结果表明,学习的滤波器组不仅更加关注具有更高感知重要性的光谱带,而且更加关注方差和香农熵(信息)最高的区域。 带有参数调制内核的CNN的部署以及DNN的可解释性的提高,为通过使用启发性内核将一些先验知识嵌入网络体系结构铺平了道路。 这为将来的研究开辟了广阔的途径。

1. Introduction

机器学习,并已在各种任务(例如[1,2])中显着提高了性能。
然而,尽管从工程学的角度来看,在构建可靠的大规模模式识别系统方面取得了显着进展,但对其深层结构的理解仍然很浅。这触发了旨在将DNN解密为黑匣子的工作量扩大,例如[3-6]。

由于卷积过程及其在进行傅立叶变换时的作用,卷积神经网络(CNN)更易于解释和理解[7,8]。当第一层中的滤波器直接对原始波形进行操作时,尤其如此。在这种情况下,还可以将学习到的过滤器与使用反映人类听觉系统特性的先验知识设计的手工过滤器进行比较。但是,CNN过滤器通常在时域或频域中都是人类无法解释的,并且与以感知为动力的手工过滤器几乎没有相似之处。

SincNet是标准非参数CNN的参数对应物,在标准非参数CNN中,滤波器是仅具有两个参数的调制基数正弦(sinc)函数:低和高截止频率。在频域中,此类滤波器表现为理想的带通滤波器,并且具有很高的解释性。一般而言,与常规CNN相比,SincNet具有(选择好的)参数模型的优点:更高的可解释性和更少的参数,需要更少的训练数据并提供更快的学习/收敛性[9,10]。此外,原始波形建模允许合并相位频谱信息[11-18],而在基于傅立叶变换幅度的功能(例如MFCC)中却被忽略了。

在本文中,我们推导了具有参数化基于内核的过滤器的可解释CNN的更一般形式。 SincNet是此类模型的特例,其中内核功能是基数正弦。推导了一个通用公式后,我们探索了Sinc函数的三个替代方案:平方Sinc(sinc2),伽马通[19-21]和高斯核,它们分别导致了三角形,伽马通和高斯滤波器组。

此外,我们进行了一系列分析,以进一步探索上述框架中学习的滤波器的特征。研究发现,网络学会了更多地关注具有更高感知重要性的频谱邻域(基于反映人类听觉系统特性的公认的先验知识),以及(在统计上)数据质心所在的位置,方差和香农熵(信息)[22]最高。

本文的其余部分组织如下。在第2节中回顾了SincNet之后,在第3节中,我们得出了带有参数调制的基于核的滤波器的可解释CNN的一般公式。在第4节中,进行了一系列研究,以探索学习到的过滤器的属性以及它们与公认的先验知识的相似性。第5节包括有关电话识别任务的实验结果以及讨论,第6节总结了论文。

2. SincNet: A CNN with Sinc Kernel

SincNet [9]是标准非参数CNN的参数对应物,其中滤波器的脉冲响应是两个Sinc函数的减法,从而形成了理想的带通滤波器[23]。 因此,在SincNet中,每个滤波器的特征仅在于两个变量:低(f1)和高(f2)截止频率。 滤波器组的参数集由下式给出:

略~

3. Kernelised CNNs


4. Perceptual and Statistical Studies onKernel-based CNNs

在本节中,我们将在建议的基于内核的框架中探索学习到的滤波器的属性,并将其与基于感知先验知识设计的手工滤波器组进行比较。 图3描绘了Sinc2Net和GammaNet为TIMIT [28]电话识别而学习的滤波器组。 为了获得更好的可视化效果并避免混乱,水平轴限制为4 kHz(TIMIT采样率为16 kHz)。

4.1. Centre Frequency Distribution
图4显示了使用相同数量的滤波器(128)和50%重叠时,基于内核的调制CNN滤波器以及均匀(uni),Mel,Bark和ERB滤波器组的中心频率直方图(分布) 提到规模。 如图所示,与人类听觉系统激发的感知尺度一致,明显有更多的滤波器在低于2000 Hz(直方图拐点)的频率下运行。 这意味着网络在处理那些频谱分量时学会了更具区分性和选择性。

4.2. Filter Quality Factor
为了研究滤波器的带宽以及相应的中心频率,我们使用了品质因数(Q)[29],即滤波器中心频率与其带宽之比[30]。常规滤波器的行为几乎类似于恒定Q滤波器(高于1000 Hz,图5),因此,当滤波器中心频率增加时,带宽会增加,尽管分数保持不变。在较高的频率下,滤波器会变宽,这意味着较差的光谱分辨率。

与常规滤波器不同,对于Sinc2Net,滤波器的Q因子不是恒定的,滤波器带宽变化也不是单调的。然而,执行线性回归表明,滤波器的Q因子随中心频率的增加而增加,这与对感知尺度的Q因子进行线性回归时相似。 SincNet,GammaNet和GaussNet也观察到了这种趋势。为了验证这种趋势不是随机效应,我们使用不同的初始化方法进行了进一步的实验:在所有运行中都观察到相同的趋势(图6)。另外,图5指出,在训练过程中监视Q因子可能会有用,以避免离群值滤波器。


4.3. GammaNet Filter Order
伽马通滤镜有一个额外的参数,滤镜阶数N(i)(第3.2节)。 四个典型的阶数与耳蜗滤波器有很好的相关性[19,21,31]。 为了探索这种关系,我们训练了一个GammaNet,并允许每个过滤器具有单独的顺序。 在训练过程中,对过滤器阶数没有特别的限制。 表1显示了学习到的过滤器顺序的统计信息。 可以看出,学习顺序的平均值为4.3,接近于典型值。

4.4. Learned filters and Statistical Properties of the Data
到目前为止,我们已通过将其与公认的先验知识进行比较,从感知的角度研究了它们的最优性。了解网络最关注的区域与训练数据的统计属性之间的关系(如果有)也很有见识。为此,我们将学习滤波器的频率响应的平均值与数据的统计特性进行比较,即数据的平均值,每个频点处的标准差(std)和Shannon熵。所有TIMIT训练数据(约140万帧)都用于估算统计数据。

如图7所示,该网络不仅学会在感知上重要的光谱带上具有更高的选择性,而且更加关注具有最高统计值的光谱部分。也就是说,平均频率响应的峰值(网络最常参与的频点)位于数据质心所在的频谱邻域中,并且方差和香农熵最高。

5. Experimental Results

5.1. Setup
在TIMIT [28]电话识别上比较了不同的体系结构。 初始比对取自于TIMIT的Kaldi [32]标准配方建立的模型。 DNN模型是使用PyTorch-Kaldi [33,34]标准配方建立的,具有相同的超参数设置,包括200ms帧长和10ms帧移。 对于所有型号,使用相同的网络。 在基于内核的CNN的第一层之上,使用了由具有1024个节点和ReLU [35]激活的五层组成的MLP。 纪元数设置为24,并使用RMSProp [36]进行优化。

5.2. Results and Discussion
表2显示了使用滤波器组功能(25毫秒)以及各种基于CNN的模型训练的MLP的PER,这些模型将原始波形作为输入(200毫秒)。可以看到,CNN和基于内核的模型优于常规功能。与SincNet相比,所提出的基于内核的技术导致PER稍低。差异仍然很低,因为,例如,三角形或伽马通滤光片在生物学上似乎更合理,并在浅层GMM-HMM系统中带来更好的性能[37,38],五个MLP隐藏层可以补偿低与SincNet矩形滤波器相关联的最高次优性。
最后,我们考虑使用基于内核的滤波器进行直接波形建模的最佳帧长。如表3所示,所有内核的最佳帧长度约为200毫秒,这比基于傅立叶的前端中使用的常规25毫秒要大得多。这允许网络学习短期到中期的表示形式,这在某些应识别(例如说话者识别)或抑制(例如说话者无关的ASR)某些中期语音属性的任务中可能有用。

为什么对于此类模型,200ms的帧长最佳?在其他将原始波形作为输入的ASR系统中,通常使用较短的帧[39-43]。尽管有必要使用其他数据库和任务进行进一步的探索,但可能的答案包括:学习某种时间掩蔽[44];协同发音[45];或最佳音节模型,注意英语的平均音节长度为200ms [46]。

(IS 19)On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters相关推荐

  1. (ICASSP 19)Federated Learning for Keyword Spotting

    会议: ICASSP 2019 论文:Federated Learning for Keyword Spotting 作者:David Leroy.Alice Coucke.Thibaut Lavri ...

  2. 论文悦读(3)——NVM文件系统之ZoFS(SOSP‘19)文件系统

    ZoFS(SOSP'19) 1. 背景(Background) 2. 动机(Motivation) 2.1 观察1:低效的用户态NVMFS 2.2 观察2:文件权限与隔离措施 3. ZoFS设计与实现 ...

  3. Windows无法启动这个硬件设备(代码19)怎么办?

    在我们使用电脑的过程中,遇到"由于其配置信息(注册表中的)不完整或已损坏,Windows无法启动这个硬件设备(代码19)"的提示时该如何解决呢? Windows无法启动这个硬件设备 ...

  4. 【暮色天】不是不破 时候未到(2.19)

    [暮色天]不是不破 时候未到(2.19) 行情回顾: 昨日白银方面最高4307,最低4187,收盘在4301,日线昨日报收较长下引线阳柱.白银在突破4030后,近期的走势表现平平.黄金方面昨日最高13 ...

  5. 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

    Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...

  6. 个性化推荐系统设计(2.2)——Few-shot Learning用于冷启动的探索

    在推荐领域,我们常常会遇到冷启动的问题,这可能在所有的推荐项目中或多或少都会涉及.对于该问题,通常的解决方法如下: ①(提供非个性化的推荐)比如先推荐热门排行榜,收集一定用户数据后,再进行个性化推荐: ...

  7. 《评人工智能如何走向新阶段》后记(再续19)

    由AI科技大本营下载自视觉中国 304. 也来讨论构建模拟人类思维过程的认知计算机制,好像这个问题迄今尚未获得解决. 我们先从输入的信息类型说起:一类是语言输入(包括词.句.文本),第二类是图像输入( ...

  8. 机器学习(三十七)——Integrating Learning and Planning(3)

    Integrating Learning and Planning Monte-Carlo Search(续) 下面我们结合实例(下围棋)和示意图,来实际了解MCTS的运作过程. 第一次迭代:五角形表 ...

  9. 《C++ Primer 5th》笔记(5 / 19):语句

    文章目录 简单语句 空语句 别漏写分号,也别多写分号 复合语句(块) 语句作用域 条件语句 if语句 使用if else语句 嵌套if语句 注意使用花括号 悬垂else 使用花括号控制执行路径 swi ...

最新文章

  1. 配置Open***使用User/Pass方式验证登录
  2. 聊一聊深度学习的activation function
  3. PHP配置文件详解php.ini
  4. SAP Cloud Platform approuter的本地安装
  5. python设计模式16-迭代器模式
  6. mysql 编译 bsion_mysql编译安装
  7. [转] 面向对象编程 - 继承和多态
  8. Mac OS 下创建txt文本文件
  9. 刺客信条3重制版修改器|刺客信条3重制版十项修改器风灵月影版下载
  10. word生成目录和给目录添加虚线和页码
  11. git更换主分支master
  12. 金山现任CEO张宏江将退休 西山居CEO继任
  13. y=asin(wx+φ)的对称中心_函数y=Asin(wx+φ)图像和性质
  14. linux内核崩溃+grub,Linux内核崩溃信息分析
  15. 嵌入式Linux永久修改MAC和IP(特别适用多个网卡设计)
  16. FDB学习总结(测试相关)
  17. 【年度总结】第一年工作总结
  18. uniapp全局事件详解(5000字)
  19. Qt之天气预报——界面优化篇(含源码+注释)
  20. P4 | SSPD-based noise cancellation (JSSC-2018-03)

热门文章

  1. 实战SSM_O2O商铺_01项目介绍以及准备工作
  2. 操作系统——互斥的定义及实现
  3. 神经网络结构包括哪些,神经网络的种类和特点
  4. 如何在谷歌浏览器进行截图
  5. python使用happybase库操作hbase
  6. 全球软件工程师薪金最高的25家公司
  7. mysql 中替换回车换行
  8. until语句应用实例
  9. gdtool解决在微信中点击棋牌游戏类app下载链接显示已停止访问打不开的问题
  10. 阿里云镜像仓库的上传下载