5.1 分割聚类:更好地理解对话语音

5.1.1 关于名称与历史

声纹分割聚类(speaker diarization)是声纹领域里仅次于声纹识别的第二大课题,其难度远大于声纹识别。声纹识别所解决的问题可以简单概括为——“这是谁说的”,而这其中便包含了一个假设,那就是已知待识别的语音中,有且仅有一个说话人的声音。而在声纹分割聚类问题中,我们却推翻了这个假设,也就是说,一段语音中可以包含多个说话人交替说话的声音。因此,声纹分割聚类所解决的问题可以概括为——“谁在什么时间说的”(who spoke when)。

英文中diarization 一词,来源于单词diary,也就是日记或日志。从diary 到动词diarize,再到名词diarization,从字面来说,可以理解为“使……成为日志”,或者说“日志化”。一般而言,一篇日志通常会记载在一天的时间里,什么人在什么时间做了什么事。那么引申到speaker diarization,自然就可以理解为“什么人在什么时间说了什么话”。

关于speaker diarization 这个名称最早的由来,已经难以考究了。一些早期的文献直接将该问题称作speaker segmentation and clustering [114,115],这也是为什么较多的中文文献将其翻译为“声纹分割聚类”[116]。不过随着该领域的发展,尤其是近年来监督式方法(见5.5 节)甚至是端到端模型(见5.5.6 节)的出现,“分割聚类”这个名称已经不再合适了。无论是分割还是聚类,都可以用其他方法来替代。笔者比较喜欢的另一个中文翻译是“声纹分时归档”

声纹技术(五):声纹分割聚类技术相关推荐

  1. 《Arduino实战》——3.3 制作一架五声音阶电子琴

    本节书摘来自异步社区<Arduino实战>一书中的第3章,第3.3节,作者 [美]Martin Evans , Joshua Noble , Jordan Hochenbaum ,译者 况 ...

  2. 声纹采集器和声纹数据库在公安领域的应用

    1.声纹数据库 与指纹库.DNA库类似,声纹库建设是一项有着重要实战价值的工作,具体表现在声纹特征具有非接触式采集的优点,和已有DNA库.指纹库相结合,可形成立体生物特征库,建成后直接为多警种服务,是 ...

  3. 声音内容识别 linux,语音支付,银行的声纹识别与声纹鉴定

    原标题:语音支付,银行的声纹识别与声纹鉴定 近日,人民网官方微博表示:声纹识别已用于部分银行.开启声纹验证,只要说出随机动态码,就能进行转账.支付等交易.专家:每个人说话时的短时频谱.声源等都有差异. ...

  4. 声纹识别demo_声纹识别 iOS SDK 文档

    # 声纹识别 iOS SDK 文档 # 1.简介 声纹识别(Voiceprint Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术.MSC SDK 声纹识别( ...

  5. 声纹识别demo_声纹识别 · 科大讯飞MSC开发指南-iOS · 看云

    [TOC] 声纹识别,主要是提供基于用户声纹特征的注册.验证服务.讯飞开放平台支持2种类型的声纹密码类型,即文本密码和数字密码,在注册时需要指定声纹类型. ~~~ //创建声纹对象 isvRec=[I ...

  6. 声纹识别demo_声纹识别 · JD NeuHub API Documents

    声纹识别 一.接口描述 1. 功能描述 声纹识别基于说话人的声音提供说话人确认功能. 2. 能力说明 声纹识别API提供说话人注册以及说话人确认的功能.用户可以先用声音进行注册,再根据声音进行说话人确 ...

  7. 报名丨“眼界大开 声临其境”网易首届音视频技术大会倒计时!

    视觉是万物感知的主要信息来源,听觉让沉默的信息更进一步,变得"有声有色". 移动互联网时代下,"声色俱佳"的在线学习.工作.娱乐方式广受欢迎,互动直播.视频会议 ...

  8. 无人驾驶汽车系统入门(二十五)——基于欧几里德聚类的激光雷达点云分割及ROS实现

    无人驾驶汽车系统入门(二十五)--基于欧几里德聚类的激光雷达点云分割及ROS实现 上一篇文章中我们介绍了一种基于射线坡度阈值的地面分割方法,并且我们使用pcl_ros实现了一个简单的节点,在完成了点云 ...

  9. hp计算机主机报警 声,电脑开机报警响5声什么原因_电脑开机出现五声报警声如何解决-win7之家...

    电脑使用时间久了,总是会出现这样那样的问题,就有用户反映说电脑开机的时候,出现报警响5声,不知道出现这样的现象是什么原因引起的,又该如何解决呢,针对电脑开机出现五声报警声这个问题,接下来给大家讲解一下 ...

最新文章

  1. 刚过国家线计算机考研报哪个好,考研估分刚过了去年国家线,今年上岸还有希望吗?有!...
  2. robotframwork的WEB功能测试(一)—切换window窗口
  3. java基础.0——Object类
  4. ubuntu vscode 配置opencv3.0_ubuntu下配置vscode的c++环境
  5. C++ Primer 5th笔记(chap 18 大型程序工具) 重载与命名空间
  6. Python中最重要的知识点:切片的操作,学习python一定要会的操作!
  7. 使得守护进程一次执行一个
  8. OpenTLD 未完成 - 虎头
  9. hibernate连接mysql 释放连接_SSH 占用数据库连接不释放问题
  10. python具有可扩展的特性_Python的特点
  11. nexus+7+android+5.0++wifi+代理,谷歌Nexus5吃上安卓8.0:除了WiFi全不能正常工作
  12. ubuntu 16源码安装zabbix4.2
  13. 记一次使用EasyExcel出现Convert excel format exception.You can try specifying the ‘excelType‘ yourself
  14. 充值150日赚1000多,一篇AI打扑克的论文竟登上科学杂志
  15. 混沌系统与复杂网络控制,神经网络模型求最优解
  16. 入职培训分享——第二篇 知识产权篇
  17. 75%半导体产能集中在亚洲,让美国半导体霸主地位岌岌可危
  18. 狂欢 724,致敬运维侠
  19. centos虚拟机桥接网络配置服务器,CentOS7虚拟机桥接网络配置
  20. Python网络与并发编程 02 TCP粘包

热门文章

  1. FTP无法连接linux服务器
  2. 个人收藏的50部经典UMD电影的ISO镜像文件
  3. java怎么调用支付接口测试_微信支付中微信红包的接口测试,Java版本
  4. 【转】如何恶搞朋友的电脑?超简单的vbs代码
  5. c# winform中获取当前日期和时间
  6. You are running the esm-bundler build of vue-i18n. It is recommended to configure your bundler to ex
  7. 基于声网 Agora 信令 SDK 开发聊天室应用(一)
  8. js 正则验证三位小数
  9. 松下linux拍照手机,松下超级拍照智能手机CM1实拍样张
  10. 1142: 输出月份英文名称。(1级)输入数字1~12,输出对应的月份英文名称。输入非1~12中的数字,输出“ Error“。