论文链接:https://arxiv.org/abs/1902.10107v1
开源代码:http://www.robots.ox.ac.uk/~vgg/research/speakerID/

网络结构

  • 输入:每帧257维向量,256维的频率量+1维的DC量
  • 主干网络:Thin-ResNet,提取frame-level特征
  • NetVLAD或GhostVLAD层:将frame-level的特征转换成utterance-level特征。大多数算法是采用Average pooling层直接对帧维度进行平均,这样做的缺点是每帧的weight是一样的,但是实际上每帧对结果的contribution肯定是不一样的,比如有说话的帧肯定比没说话帧的contribution高,本文采用的方法其实是自动学习给予每帧不同的权重。
  • trainning loss:标准的softmax loss和additive margin softmax(AM-Softmax)

Utterance-level Aggregation For Speaker Recognition In The Wild笔记相关推荐

  1. Utterance-Level Aggregation For Speaker Recognition In The Wild

    本文使用NetVLAD,将frame-level聚合为utterance-level. in the wild: 4s以上的语音 实现流程 将通过Thin ResNet的frame-level通过Ne ...

  2. Within-sample variability-invariant loss for robust speaker recognition under noisy environments

    Within-sample variability-invariant loss for robust speaker recognition under noisy environments 标题: ...

  3. ICASSP 2019----Analysis and Mitigation of Vocal Effort Variations in Speaker Recognition

    Mahesh Kumar Nandwana1 , Mitchell McLaren1 , Luciana Ferrer2 , Diego Castan1 , Aaron Lawson1 1,Speec ...

  4. Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解

    "MSR Identity Toolbox"里使用到了G-PLDA(Gaussian probabilistic LDA). 根据文献[1]对G-PLDA的原理进行了初步的了解,记 ...

  5. Speaker Recognition: Feature Extraction

    1. Short-Term Spectral Features 常用的有MFCC, LPCC, LSF, PLP.实际应用中,如何选择哪个特征参数,重要性不如如何做好channel compensat ...

  6. Speaker Recognition: GMM-UBM

    1. WHY --- 为什么需要使用GMM-UBM来建立Individual Speaker Modeling? "Usually, we do not have much data fro ...

  7. voxsrc20_std_00-How many kinds of topology used in speaker recognition?

    ID = voxsrc20_std_00 Status: closed Content Topic Study record [200711] VoxSRC19 Reference Topic How ...

  8. 【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》

    <Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习 文章目录 <Who is Real ...

  9. END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA

    END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA Johan Rohdin, Anna Silnova, M ...

最新文章

  1. 她在博士阶段破釜沉舟转换研究方向后,发表了32篇SCI
  2. MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?
  3. SAP CDS view权限控制实现原理介绍
  4. Java –远景JDK 8
  5. [jQuery] 根据表单的不同参数跳转不同的链接
  6. java中doloop语句_Java中的do-while循环——通过示例学习Java编程(11)
  7. [ARM-Linux开发] 主设备号--驱动模块与设备节点联系的纽带
  8. 逆天的GPT-2居然还能写代码(但OpenAI却被无情吐槽)
  9. HAProxy安装和配置大全
  10. php简单使用shmop函数创建共享内存减少服务器负载
  11. [Flex]浅析Mate flex framework在实际项目中的应用(二)
  12. XGBoost和GBDT的区别与联系
  13. java adt教程_用Eclipse安装ADT插件搭建Android环境(图文)
  14. 完整的蓝屏错误代码大全详解
  15. CHM电子书木马制作攻略
  16. Spring AOP之动态代理方式
  17. 27_Pandas按星期,月份,季度和年份的天计算时间序列数据的总计和平均值
  18. DSP GPIO端口操作
  19. 呕心沥血大放血,今天小企鹅来给大家送福利了!!!Mac.Win.Lin虚拟机映像/资源超全[分享]
  20. seaweedfs报存储错误

热门文章

  1. 有n步台阶,一次只能上1步或2步,共有多少种走法?
  2. Python——ZipFile操作压缩文件
  3. 基于飞桨的“小书虫”儿童电子阅读器
  4. (小白学Java)Java简介和基本配置
  5. 股票入门基础知识|年报如何读
  6. JavaScript中的DOM对象
  7. Python中的numpy.reshape用法
  8. IDEA使用:设置注释模板
  9. Mac 上 “USB 10/100 LAN”有一个自分配的IP地址,将无法接入互联网。
  10. scipy.interpolate插值方法介绍