本文使用NetVLAD,将frame-level聚合为utterance-level。
in the wild: 4s以上的语音

实现流程

将通过Thin ResNet的frame-level通过NetVLAD聚合为utterance-level。
网络输入为R(257×T×1),输出变为了R(1×T/32×512)

NetVLAD: 输出一个K×D的矩阵V,K为聚类类别数,D为每一类的维数。

第一项代表了这一帧特征在类别k的权重,第二项代表了其与类中心的残差。
最后将每帧向量L2标准化后连接起来。

在GhostVLAD中,一些类并不参与最后的连接,因此可以剔除一些噪声段

实验


在GhostVLAD中,聚类数与损失函数对结果影响不大。

Utterance-Level Aggregation For Speaker Recognition In The Wild相关推荐

  1. Utterance-level Aggregation For Speaker Recognition In The Wild笔记

    论文链接:https://arxiv.org/abs/1902.10107v1 开源代码:http://www.robots.ox.ac.uk/~vgg/research/speakerID/ 网络结 ...

  2. Within-sample variability-invariant loss for robust speaker recognition under noisy environments

    Within-sample variability-invariant loss for robust speaker recognition under noisy environments 标题: ...

  3. ICASSP 2019----Analysis and Mitigation of Vocal Effort Variations in Speaker Recognition

    Mahesh Kumar Nandwana1 , Mitchell McLaren1 , Luciana Ferrer2 , Diego Castan1 , Aaron Lawson1 1,Speec ...

  4. Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解

    "MSR Identity Toolbox"里使用到了G-PLDA(Gaussian probabilistic LDA). 根据文献[1]对G-PLDA的原理进行了初步的了解,记 ...

  5. Speaker Recognition: Feature Extraction

    1. Short-Term Spectral Features 常用的有MFCC, LPCC, LSF, PLP.实际应用中,如何选择哪个特征参数,重要性不如如何做好channel compensat ...

  6. Speaker Recognition: GMM-UBM

    1. WHY --- 为什么需要使用GMM-UBM来建立Individual Speaker Modeling? "Usually, we do not have much data fro ...

  7. voxsrc20_std_00-How many kinds of topology used in speaker recognition?

    ID = voxsrc20_std_00 Status: closed Content Topic Study record [200711] VoxSRC19 Reference Topic How ...

  8. 【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》

    <Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习 文章目录 <Who is Real ...

  9. END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA

    END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA Johan Rohdin, Anna Silnova, M ...

最新文章

  1. App Store 申请审核加速
  2. 深入解析 Kubebuilder:让编写 CRD 变得更简单
  3. 如何挽回一个快要“变心”的买家?(转自索菲外贸笔记)
  4. SD 模块的几个增强
  5. 操作系统原理: 计算机的体系结构、内存的层次结构 、地址的生成
  6. RabbitMQ消息确认机制
  7. encapsulation java_Java - 封装(Encapsulation)
  8. 美团数据库中间件DBProxy开源
  9. 第一章 计算机网络 1 计网体系结构的概念和功能 [计算机网络笔记]
  10. 重装系统计算机名称回对ug,电脑重装系统后UG软件没有卸载的情况下重新启动UG软件的方法...
  11. Codeforces Round #465 935C. Fifa and Fafa计算几何
  12. VSCode 上竟然也能约会,谈对象了???
  13. Xcode 11.7(12.4)/13.2的signing和sandbox配置截图对比
  14. 数学建模——线性规划篇
  15. 淘宝网购物车jquery源码和网易新用户注册页面表单验证的练习
  16. 用arcgis批量裁剪栅格(tiff)数据的矩形区域
  17. java:利用数组实现将古诗词纵向输出
  18. 一二线城市互联网公司汇总,助你拿高薪!
  19. 我们使用 Kafka 生产者在发消息的时候我们关注什么(Python 客户端 1.01 broker)...
  20. 百度这样搜索,可以去掉广告!

热门文章

  1. 微型计算机安全模式,电脑的安全模式是什么意思?
  2. NineData获“年度创新产品”奖
  3. TypeError: Object of type set is not JSON serializable
  4. valid 和 validated的使用小结
  5. MongoDB可视化客户端robo3tES
  6. C++编码风格/规范/建议
  7. 【Git】warning: LF will be replaced by CRLF in .gitignore解决方案
  8. simplify简化:can be replaced with
  9. 根据身份证号获取信息
  10. 据说20%的业务能拿到外贸大订单因为懂这个方法