背景

在很多业务场景下,确定发声人的性别都是很有用的。人类可以很轻松的通过一段语音确定发声者的性别,但是人的成本以及效率是比较低的。此时,假如机器可以完成这项工作的,将极大的解放人力提升效率。

研究过程

算法方案

特征的选择使用在自动语音和说话人识别中广泛使用的MFCC特征。因为男女声的最明显的差异在音色,而音色在音频上表现为其共振峰分布。MFCC特征[1]是使用频谱包络(连接所有共振峰值点的平滑曲线)再经过基于人耳听觉实验获取到的三角滤波器组,过滤掉一些人耳不敏感的频率分量之后得到。因此,使用MFCC特征作为模型的训练特征.
模型的选择同样适用在音频信号领域比较常用的gmm(高斯混合模型)。
假设男生的共振峰分布和女性的共振峰分布是有比较明显的差异的。此时,使用gmm分别去描述男性和女性的分布。在使用的时候,利用男性和女性各自的GMM模型,相似度高者即为结果。

训练方法如下:

  1. 获取一段音频,对其进行分帧,短时傅里叶变换而后提取MFCC特征,得到关于这段音频的特征组
  2. 将每一帧数据作为单独的特征,不考虑其连续性,用来训练男女两个模型,得到关于一帧数据的男女两个模型

判定一段语音归属的方法:

  1. 对一段音频进行分帧,短时傅里叶变换后提取MFCC特征
  2. 将每一帧数据分别输入到两个模型中,分别获得本帧数据与两个模型的相似度
  3. 将整段音频关于两个模型每一帧的相似度结果各自累加,作为整段音频关于两个模型的相似度,选择高的作为结果

同时,使用深度学习的方式构建以及简单的DNN模型代替GMM进行单帧的预测,最终效果与GMM的差异不大。

效果

数据集

训练集: 7762段语音,男女声音比例为1:1
测试集: 男声数量:1664段 女声数量: 1656段

表现

GMM混淆矩阵,综合指标:(1630+1633)/(1664+1656)=98.28%
[以下是针对于每一段语音的表现,非单帧表现]

真实数据\预测结果 男声 女声
男声 1630 34
女声 23 1633

DNN模型混淆矩阵,综合指标(1631+1629)/(1664+1656)=98.19%
[以下是针对于每一段语音的表现,非单帧表现]

真实数据\预测结果 男声 女声
男声 1631 33
女声 27 1629

探索过程

探索过程分为两个部分,数据预处理以及修改每段语音中对于每一帧的结果做投票方案。数据预处理的效果提升比较明显,最初测试集表现为89%,经过数据集清洗矫正以及数据预处理之后,测试集表现达到98%。尝试多种投票方案,分析优劣以及效果评估,上述投票方案最好。

参考文献:

[1] https://blog.csdn.net/zouxy09/article/details/9156785

男女声分类研究及应用相关推荐

  1. 语音识别之男女声分类(从一段对话中分离男声)

    目录 0  引言 1  思路 2  代码 (1)主函数 (2)子函数judge.m 3  代码运行结果 4  结论 5  参考资料 0  引言    前段时间,朋友让我帮忙剪十段音频,每段音频为约十分 ...

  2. 语音信号处理(1):男女声在线识别系统(倒谱、基音频率)

       语音信号处理是挺有意思的,尤其是在人工智能横行的今天.不过就我看来,现在整个社会上明显对人工智能的作用过于夸大了,大多数写报道和搞炒作宣传的人基本不懂人工智能.尘世若此,其实又何止是在人工智能上 ...

  3. 「基于GNN的图分类研究」最新2022综述

    图数据广泛存在于现实世界中, 可以自然地表示复合对象及其元素之间的复杂关联. 对图数据的分类是一 个非常重要且极具挑战的问题, 在生物/化学信息学等领域有许多关键应用, 如分子属性判断, 新药发现等. ...

  4. java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记

    基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...

  5. 多标签文本分类研究进展概述

    多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...

  6. 「技术综述」人脸脸型分类研究现状

    https://www.toutiao.com/i6711561945733923336/ 作者 | 王朋强 编辑 | 言有三 今天给大家带来一篇人脸识别中的脸型识别,不同的脸型适合的眼镜发型不同,那 ...

  7. 【读论文】LiDAR数据特征的提取与智能分类研究(一)

    [读论文]LiDAR数据特征的提取与智能分类研究 1.lidar是一种地面非高度信息隐含表达的数据是什么意思? 2.为什么说lidar数据是一个不完整证据系统? 由于lidar是以地面高度信息来记录数 ...

  8. 【论文笔记】:作物分类--多时相极化SAR数据的旱地作物分类研究

    [论文笔记]:作物分类–多时相极化SAR数据的旱地作物分类研究 单位:中国农业科学院农业资源与农业区划研究所 一.摘要: 1.目的:对河北省冀州市棉花.玉米.水体和建筑进行分类,比较不同时相及分类方法 ...

  9. 多模态信息抽取(一)——融合知识图谱和多模态的文本分类研究(论文研读)

    融合知识图谱和多模态的文本分类研究 引言: 1 相关工作 1.1文本分类 1.2知识融合 1.3多模态融合 2 融合知识图谱和多模态的文本分类模型 2.1文本特征表示 2.2实体特征表示 2.3图像特 ...

最新文章

  1. 样式集(五)微信朋友圈样式模拟
  2. js php 实现日历签到_Js 实现每日签到打卡轨迹功能。
  3. pandas库简单入门
  4. P5025-[SNOI2017]炸弹【tarjan,线段树优化建图】
  5. 【转】Linux/ubuntu下apache+svn安装配置
  6. 无心剑《英语学习漫谈》
  7. Oracle job自动任务实用指南
  8. 【读fastclick源码有感】彻底解决tap“点透”,提升移动端点击响应速度
  9. Hibernate 的配置文件
  10. 微信自动邀请加群!!!
  11. AFNetworking使用
  12. ios底部栏设计规范_设计干货:底部导航栏规范设计总结
  13. 啃传奇服务器端的源码
  14. CentOS 7.4 安装 网易云音乐
  15. openssl 的 tls 命令和相关使用心得
  16. OpenGL with QtWidgets:投光物、多光源
  17. 中国式差旅管理的一匹黑马
  18. CF-Educational Codeforces Round 44 (Rated for Div. 2)-D-Sand Fortress
  19. 加速度传感器安装注意事项
  20. font-weight:字体粗细

热门文章

  1. WinForm log4net使用
  2. linux centos7 redhat7 怎么设置开机自动进入命令行模式
  3. 大脑学习是否是“凸”的
  4. Multi-Channel
  5. 每周读书#10 - 不放过路上的风景
  6. 灰尘GP2Y10F传感器时序详解
  7. 关于mysql一张表到底能存多少数据?
  8. [转]三个BT下载的代理网站
  9. success: function ()和success: res=> ()有什么区别
  10. 什么是大语文?大语文到底“大”在哪?