录音音质差听不清?普林斯顿提出新算法HiFi-GAN或许可以帮上忙
近日,普林斯顿大学的研究人员开发了一种新算法HIFI-GAN,可以将低质量的录音转换为高质量的录音室音质音频。
以往的人工智能音频处理方法通常只能改善录音音质的某一方面,如过滤背景噪音或去除混响,而这种新方法是一种多功能工具。
“先前的方法主要集中在改善录音的可懂度,但就改善音质来说并不是很有优势”,论文的第一作者Jiaqi Su说。研究人员希望将他们的框架应用于实现完全自动化的实时语音增强。
新算法HIFI-GAN可以提升音频的音质
HIFI-GAN使用深度学习的关键工具人工神经网络,可以模拟生物神经元的互联结构。在这个系统中,两个独立的网络相互竞争可以提高音频质量。
其中一个网络被称为“生成器”(generator),用以生成清洗过的语音录音。另一个网络叫做“鉴别器”(discriminator),能够分析音频是录音室音质还是被生成器清洗过的录音。这些对抗神经网络之间的竞争提高了HIFI-GAN清洗音频的能力。
“生成器的任务就是欺骗辨别鉴别器”,合著者Adam Finkelstein说,“两者都在训练中逐渐提升,变得越来越有效率。这个过程完成后,你就可以拿掉鉴别器,而将拥有一个强大的生成器。”
HIFI-GAN可以模拟生物神经元的互联结构
为了评估HIFI-GAN生成的录音,研究人员寻求了众包平台Amazon Mechanical Turk的帮助。该平台的听众会分别对HIFI-GAN处理过的录音和其算法处理的录音进行评级。在Amazon Mechanical Turk2.8万名听众的评分中,HIFI-GAN的得分远高于其他五种算法的处理结果。
Finkelstein和团队成员还设立了一种客观评估指标,用于检验和量化录音中的细微差异。该指标是根据Amazon Mechanical Turk收集的5.5万人类判断进行训练的,它可以提高HIFI-GAN的性能,也能更广泛地应用于处理录音的深度学习方法的评估。
“我们想找到一种与人类感知相似指标,”合著者Pranay Manocha说,“例如,我们播放两段录音并让机器判断两段录音是完全相同还是截然不同,根据我们的指标机器应当能够给出与人类判断相似的答案”。
“深度学习在音频处理领域已经产生了巨大的影响,我们期望这一影响在未来十年能够变得更加深刻,”Finkelstein说,“但机器学习需要知道如何做……它需要一个损失函数。”
Finkelstei说在设计一个好的损失函数时,“需要一个全自动的方法来确定人们是否会说两段音频片段听起来相似”。因此,该团队接下来的努力方向就是开发一种自动方法来预测人类会如何回答这个问题。
目前,研究人员正在进一步完善该算法以实现实时语音增强,这一研究成果能够很好地应用于变焦对话或网络会议。
参考:
1.https://techxplore.com/news/2020-12-ai-latest-word-clearer-audio.html
2.https://daps.cs.princeton.edu/projects/HiFi-GAN/index.php?env-pairs=DAPS&speaker=f10&src-env=all
录音音质差听不清?普林斯顿提出新算法HiFi-GAN或许可以帮上忙相关推荐
- 成功检测远距离目标,将点云与RGB图像结合,谷歌Waymo提出新算法:4D-Net
本文选自Google Blog,作者:AJ Piergiovanni 等 转自机器之心 编辑:陈萍.杜伟 来自谷歌的研究者提出了一种利用 3D 点云和 RGB 感知信息的 3D 物体检测方法:4D-N ...
- Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割. 话不多说,先放Leadb ...
- CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
基于Self-Attention的Transformer结构,首先在NLP任务中被提出,最近在CV任务中展现出了非常好的效果.然而,大多数现有的Transformer直接在二维特征图上的进行Self- ...
- Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割...
点击下方卡片,关注3D视觉工坊公众号 3D视觉干货第一时间送达 今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panopti ...
- 5秒手机猫片也能重建猫咪3D模型,Meta提出新算法为变形物体建模 | CVPR 2022
晓查 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,猫是一种液体. 这也给CVer带来了极大的烦恼:如何从2D视频中准确地对一只猫进行3D重建? 在很多情况下,3D重建模型得到的真是一滩液 ...
- 大数据新算法在个人信用风险评估模型中使用效果的评估
风控系统资料 https://www.jianshu.com/p/db2aece905a7 基于大数据和机器学习的Web异常参数检测系统Demo实现 https://www.freebuf.com/a ...
- 手机音质变差_手机听歌音质差?这些音质大坑你跳了几个
随着手机的普及,MP3随身听的市场已经被挤压成为了绝对的非主流,手机听歌成为了越来越多人的日常. 不过,大多数人手机听歌只是图个方便,一旦讨论起手机的音质,大家似乎都不怎么抱以期待. 的确,除了某些内 ...
- 人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降...
关注公众号,发现CV技术之美 0 写在前面 视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件.现有的方法主要通过事件检测和事件字幕两个步骤来解决 ...
- 【深度学习再突破】让计算机一眼认出“猫”:哈佛提出新高维数据分析法
[新智元导读]目前,还没有人能够真正理解深度网络在目标分类任务方面的运行方式和原理.主要原因是对深度网络在分类任务中所做的"工作"还没有一个很好的衡量标准,一篇最近发表的关于&qu ...
最新文章
- OSPF被隔离的区域
- 进程和线程的一些见解
- 计算器初步添加消息响应
- NodeJS——模块全局安装路径配置以及关于supervisor的问题解释
- 【HDOJ 5384】Danganronpa
- 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中...
- (转)动态Entity Framework查询:Dynamic Query 介绍
- golang如何生成随机数
- 通过PyTorch中的可视化理解卷积神经网络
- 【正在等待可用套接字】解决方法
- 【软件工程】二、需求分析——怎么提需求?,怎么写需求?
- android刷机电脑版,安卓一键刷机助手
- 保姆级教程|昨晚撸了一个ChatGPT群聊机器人
- java使用mybatis一次性插入多条数据
- 一键GHOST是什么?
- Google系列②布局平台战略
- 自定义钉钉机器人消息提示
- 那些逝去的岁月-多事之秋
- python检测微信好友是否删除_基于Python+adb实现微信是否好友检测
- 免费PDF转换为PPT格式的方法