用弗雷歇距离(Fréchet Distance)进行音质和视质度量

当你能够衡量自己所说的东西,并用数字来说明它,这意味着你对它有较好的了解;反之,则意味你对它并不是真正了解。

————William Thomson在1883年的“电子计量单位”讲座中说

机器学习的科学进步速度通常取决于优质数据集和指标的可用性。 在深度学习中,基准数据集(例如ImageNet或Penn Treebank)可促进建立用于图像识别和语言模型的深度人工神经网络。 然而,尽管可用的真值数据集很适合作为这些预测任务表现的衡量指标,但标定这些用于和生成模型进行比较的数据并不是那么简单。 想象一下一种模型,该模型生成星际争霸系列游戏的视频——如何确定哪种模型最好? 显然,下面显示的某些视频看起来比其他视频更真实,但是它们之间的差异可以用什么指标量化吗? 获得用于评估生成模型的有力指标对于衡量(取得)音频和视频理解领域的进展至关重要,但是目前尚不存在此类指标。

由星际争霸录像数据集中的一组镜头训练出的不同模型上生成的视频

在“Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms”和“Towards Accurate Generative Models of Video: A New Metric & Challenges”中,我们介绍了两个这样的衡量指标——Fréchet音频距离(FAD)和Fréchet视频距离(FVD) 。我们用10000个视频和69000个音频片段成对比较来记录了大规模的计值,用来说明我们的指标与人类感知之间的高度相关性。我们还在github上发布了Fréchet Video Distance和FréchetAudio Distance的源码(https://github.com/google-research/google-research/tree/master/frechet_video_distance)。

Fréchet Distance简介

Fréchet Distance用于衡量两个曲线的相似度,由法国数学家Maurice René Fréchet在1906年提出;后又被描述为遛狗最短狗绳问题。。

生成模型的目标是去学习生成与经过训练的样本相似的样本,从而使它知道数据中哪些特性和特征可能出现,哪些不太可能出现。换句话说,生成模型必须学习训练数据的概率分布。在许多情况下,生成模型的目标分布都是很高维的。例如,具有3色通道的128x128像素的单个图像的尺寸大概有50000维,而一个几秒的视频片段可能包含数十(或数百)个这样带音频的帧,可能有16000个样本。为了量化给定模型在一个任务上的成功率去计算如此高维分布之间的距离是非常困难的。以图片来说,我们可以看一些样本来判定视觉质量,但是对每个训练的模型都这样做是不可行的。

此外,生成对抗网络(GANs)倾向于集中于总体目标分布的几种模式,而完全忽略其他模式。比如,GANs可能只学习生成一种类型的对象或选定的几个视角。因此,仅看模型下有限数量的样本可能无法指出网络是否成功学习了整个分布。为了解决这个问题,需要一种与人类对质量的判断非常一致的指标,同时还要考虑目标分布的属性。

解决此问题的一种常见方法是Fréchet Inception Distance(FID)的指标,专门为图像设计。 FID从目标分布和生成模型中获取了大量图像,并使用Inception对象识别网络将每个图像嵌入到含有重要特征的低维空间中。然后,它计算这些样本之间的Fréchet距离,这是一种计算分布之间距离的常用方法,可以定量地衡量两个分布实际的相似程度。

这两个指标的关键组成部分是预先训练的模型,该模型将视频或音频剪辑转换为N维嵌入。

Fréchet Audio Distance和Fréchet Video Distance
基于已成功应用于图像领域的FID原理,我们提出了Fréchet视频距离(FVD)和Fréchet音频距离(FAD)。与流行的评价指标(如峰值信噪比或结构相似性指标)不同,FVD会完整地查看视频,从而避免了逐帧指标的缺点。

机械臂视频示例,新的FVD指标评价。发现FVD值约为2000、1000、600、400、300和150(从左到右;从上到下)。显然FVD值越小,视频质量越高。

在音频领域中,现有指标要么需要时序一致的标准值信号(如源失真比:SDR),要么仅针对特定范围(如对话质量)。而FAD是不做限制的,可用于任何类型的音频。

下面是音频嵌入矢量的二维可视化图,我们可以从中计算出FAD。每个点都对应于一个5秒钟音频片段的低维嵌入,其中蓝色点来自纯音乐,其他点代表已经以某种方式失真的音频。估算的多元高斯分布表现为同心椭圆。随着失真幅度的增加,其分布与纯净音频分布之间的重叠减少。这些分布之间的距离就是Fréchet distance的测量值。

在动画中,我们可以看到,随着失真幅度的增加,失真音频的高斯分布与纯净音频分布的重叠减少。其分离度就是Fréchet distance的测量值。

评估
FAD和FVD密切跟踪人类的判断很重要,因为这是所见所闻“真实”的黄金标准。因此,我们进行了一项大规模的研究,以确定我们的新指标与人类对生成的音频和视频的定性判断的一致性。在这项研究中,评估人员测试了10000个视频对和69000个5秒音频片段。对于FAD,我们要求评估人员比较两种不同失真对同一音频片段的影响,同时将他们比较的一对失真和它们出现的顺序随机化。评估者被问到“哪个音频片段听起来最像录音棚录制的?”,然后使用Plackett-Luce模型对收集的成对评估集合进行排序,该模型为每个参数配置评估一个有价值的值。将其与FAD进行比较,显示FAD与人类判断有很好的相关性。

该图将纯净的背景音乐与通过多种方法失真的音乐(如音高降低,高斯噪声等)之间计算出的FAD与人类评估得出的相关值进行了比较。每种类型的失真都有两个数据点,分别代表所应用失真的高低极限。例如,量化失真(紫色圆圈)会将音频限制为每个采样的特定位数,其中两个数据点代表两种不同的比特率。评估人员和FAD都为较低的比特率量化分配了较高的值。总体来说log FAD与人的判断较为一致——如果完美的话将拟合为一条直线。

结论
我们目前在生成模型方面取得了很大的进步。FAD和FVD将帮助我们保持进展可被度量,并有望引导我们改进音频和视频生成的模型。

用弗雷歇距离(Fréchet Distance)进行音质和视质度量相关推荐

  1. Fréchet distance(弗雷歇距离)-用于地图匹配

    Fréchet distance(弗雷歇距离)是法国数学家Maurice René Fréchet在1906年提出的一种路径空间相似形描述( 此外还在这篇论文里定义了 度量空间),这种描述同时还考虑进 ...

  2. 弗雷歇距离的原理及python代码实现(动态规划)

    弗雷歇距离的原理及python代码实现(动态规划) 在网上看了很多关于弗雷歇距离的介绍,结合自己的理解,出一版更通俗易懂.更清晰具体的解释. 最简单的解释自然是最短狗绳长度,但我将从另一个角度来解释它 ...

  3. 离散Fréchet(弗雷歇) 距离评价曲线相似度

    离散Fréchet(弗雷歇) 距离评价曲线相似度 1.引言 对于如何评价两条曲线的相似度现已经存在许多较为直接有效的方法,诸如基于各种距离测度的距离评判.利用相关系数进行相似度分析等等,其中对于距离测 ...

  4. 曲线相似度衡量——曲线距离计算Fréchet distance详解与python计算

    弗朗明歇距离(Fréchet distance)论文可以参考: 理论推导 Eiter, Thomas, and Heikki Mannila. "Computing discrete Fré ...

  5. 马氏距离 (马哈拉诺比斯距离) (Mahalanobis distance)

    马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离.它是一种有效的计算两个未知样本集的相似度的方法 ...

  6. 【知识学习】马氏距离 Mahalanobis Distance

    目录 1. 协方差的意义 2. 马氏距离 2.1 概述 2.2 公式 2.3 实际意义 2.4 局限性 2.4.1 协方差矩阵必须满秩[不平衡数据少数类一般都不是] 2.4.2 不能处理非线性流形(m ...

  7. 【POJ No. 1986】 距离查询 Distance Queries

    [POJ No. 1986] 距离查询 Distance Queries 北大OJ 题目地址 [题意] 约翰有N 个农场,标记为1-N .有M 条垂直和水平的道路连接农场,每条道路的长度各不相同.每个 ...

  8. 相似性度量的各种距离(Distance)计算归类详解及应用(强烈建议收藏!!!备用)

    Distance Classification Distance 欧氏距离(Euclidean Distance) 闵可夫斯基距离(Minkowski distance) 曼哈顿距离(Manhatta ...

  9. 切比雪夫距离 ( Chebyshev Distance )

    切比雪夫距离Chebyshev Distance 前言 一.简介 二.自己的理解 总结 前言 听说进互联网大厂都要刷题,我虽然是做Android graphics,不是做互联网的,但是也有一颗进大厂的 ...

最新文章

  1. getvalue函数怎么使用_Java中的构造函数——通过示例学习Java编程(14)
  2. 老鼠实验中老鼠的数量变化曲线
  3. Minio分布式集群示例:8个节点,每节点1块盘
  4. 动力环境监控系统论文_浅谈动力环境监控系统技术标准
  5. 交付方式 saas_扩展和交付SaaS启动的最佳方法
  6. 带父节点的平衡二叉树_平衡二叉树的左右旋以及双旋转的图文详解
  7. GitLab Web IDE正式发布10.7版本并开源
  8. 知名网游Server端架构分析
  9. 想起纽微特期间的一次版本事故
  10. Atitit.视频文件加密的方法大的总结 java c# php
  11. pageHelper.startPage(m,n)的用法
  12. 大学 University 2
  13. C#实现简单气泡屏保(一)
  14. MC开服教程2:材质包法自定义唱片音乐
  15. 五句话介绍计算机英语,日常必备的英语口语句子3篇
  16. 成了!刚刚登顶全球首富的他,花440亿美元将推特买下 | 美通社头条
  17. Python实现语音识别(基于百度语音识别)
  18. 五、vis 右键节点展开菜单
  19. Ironic 裸金属管理服务的网络模型
  20. 大数据电商数据仓库系统搭建 附离线安装包

热门文章

  1. android仿卷皮框架,Android刷机常用adb指令集合
  2. 解决Win10微软拼音输入法与Visual Studio编译快捷键冲突
  3. 数据分析学习总结笔记05:缺失值分析及处理
  4. 聪明的电教员程序(C++)
  5. 基于VC++的MFC类库实现的住房贷款计算器
  6. 脉冲拉绳位移传感器和绝对值传感器有啥区别?
  7. iOS中解析Bonjour服务(转)
  8. 如何选购盘点机,条码数据采集器?需要注意哪些事项?比如:金蝶盘点机,药品盘点机,超市盘点机,图书盘点机,服装盘点机等
  9. java开发时遇到的错误
  10. 2022-2028全球与中国分流电阻器市场现状及未来发展趋势