Utterance-Level Aggregation For Speaker Recognition In The Wild
本文使用NetVLAD,将frame-level聚合为utterance-level。
in the wild: 4s以上的语音
实现流程
将通过Thin ResNet的frame-level通过NetVLAD聚合为utterance-level。
网络输入为R(257×T×1),输出变为了R(1×T/32×512)
NetVLAD: 输出一个K×D的矩阵V,K为聚类类别数,D为每一类的维数。
第一项代表了这一帧特征在类别k的权重,第二项代表了其与类中心的残差。
最后将每帧向量L2标准化后连接起来。
在GhostVLAD中,一些类并不参与最后的连接,因此可以剔除一些噪声段
实验
在GhostVLAD中,聚类数与损失函数对结果影响不大。
Utterance-Level Aggregation For Speaker Recognition In The Wild相关推荐
- Utterance-level Aggregation For Speaker Recognition In The Wild笔记
论文链接:https://arxiv.org/abs/1902.10107v1 开源代码:http://www.robots.ox.ac.uk/~vgg/research/speakerID/ 网络结 ...
- Within-sample variability-invariant loss for robust speaker recognition under noisy environments
Within-sample variability-invariant loss for robust speaker recognition under noisy environments 标题: ...
- ICASSP 2019----Analysis and Mitigation of Vocal Effort Variations in Speaker Recognition
Mahesh Kumar Nandwana1 , Mitchell McLaren1 , Luciana Ferrer2 , Diego Castan1 , Aaron Lawson1 1,Speec ...
- Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解
"MSR Identity Toolbox"里使用到了G-PLDA(Gaussian probabilistic LDA). 根据文献[1]对G-PLDA的原理进行了初步的了解,记 ...
- Speaker Recognition: Feature Extraction
1. Short-Term Spectral Features 常用的有MFCC, LPCC, LSF, PLP.实际应用中,如何选择哪个特征参数,重要性不如如何做好channel compensat ...
- Speaker Recognition: GMM-UBM
1. WHY --- 为什么需要使用GMM-UBM来建立Individual Speaker Modeling? "Usually, we do not have much data fro ...
- voxsrc20_std_00-How many kinds of topology used in speaker recognition?
ID = voxsrc20_std_00 Status: closed Content Topic Study record [200711] VoxSRC19 Reference Topic How ...
- 【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》
<Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习 文章目录 <Who is Real ...
- END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA
END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA Johan Rohdin, Anna Silnova, M ...
最新文章
- App Store 申请审核加速
- 深入解析 Kubebuilder:让编写 CRD 变得更简单
- 如何挽回一个快要“变心”的买家?(转自索菲外贸笔记)
- SD 模块的几个增强
- 操作系统原理: 计算机的体系结构、内存的层次结构 、地址的生成
- RabbitMQ消息确认机制
- encapsulation java_Java - 封装(Encapsulation)
- 美团数据库中间件DBProxy开源
- 第一章 计算机网络 1 计网体系结构的概念和功能 [计算机网络笔记]
- 重装系统计算机名称回对ug,电脑重装系统后UG软件没有卸载的情况下重新启动UG软件的方法...
- Codeforces Round #465 935C. Fifa and Fafa计算几何
- VSCode 上竟然也能约会,谈对象了???
- Xcode 11.7(12.4)/13.2的signing和sandbox配置截图对比
- 数学建模——线性规划篇
- 淘宝网购物车jquery源码和网易新用户注册页面表单验证的练习
- 用arcgis批量裁剪栅格(tiff)数据的矩形区域
- java:利用数组实现将古诗词纵向输出
- 一二线城市互联网公司汇总,助你拿高薪!
- 我们使用 Kafka 生产者在发消息的时候我们关注什么(Python 客户端 1.01 broker)...
- 百度这样搜索,可以去掉广告!
热门文章
- 微型计算机安全模式,电脑的安全模式是什么意思?
- NineData获“年度创新产品”奖
- TypeError: Object of type set is not JSON serializable
- valid 和 validated的使用小结
- MongoDB可视化客户端robo3tES
- C++编码风格/规范/建议
- 【Git】warning: LF will be replaced by CRLF in .gitignore解决方案
- simplify简化:can be replaced with
- 根据身份证号获取信息
- 据说20%的业务能拿到外贸大订单因为懂这个方法