作者 | Wav2pix 研究团队

译者 | 刘畅

编辑 | Jane

出品 |  AI科技大本营(公众号id:rgznai100)

【导语】之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”:给定音频或视频后(输入),可以让任意一个人的面部特征与输入的音视频信息保持一致,也就是说出输入的这段话。当时就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过,近期一项新研究再度抓到了笔者的眼睛!在最新的研究中,研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作,此乃头一次见啊!接下来就为大家介绍一下这项工作!

音频和图像是人类最常用的两种信号传输模式,图像传达的信息非常直观,而语音包含的信息其实比我们想象的要更丰富,包括说话人的身份,性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的,可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入,来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

谈到这项研究的贡献,主要有三点:

  • 提出了一个能够直接从原始的语音信号生成人脸的条件GAN:WAV2PIX;

  • 提供了一个在语音和人脸两方面综合质量很高的一个数据集:Youtubers;

  • 实验证明论文的方法可以生成真实多样的人脸。

论文收集了大V用户(Youtubers)上传到 Youtube 的演讲视频,这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成:一个是自动生成的数据集和一个手动处理后的高质量的子集。

主要的预处理工作:

  • 音频最初下载的是高级音频编码(AAC)格式,44100 Hz,立体声。因此转换为 WAV 格式,并重新采样到 16 kHz,每个样例占 16 位并转换为单声道。

  • 采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

  • 保存检测出来的那帧图像及前后两秒的语音帧,以及一个标签(identity)。

方法介绍


研究主要由三个模块构成:一个是语音编码器,一个是图片生成网络,一个是图片判别网络。

语音编码器(Speech Encoder):已有的方法大多数是手工提取音频特征,并不是针对生成网络的任务进行优化的,而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络,并且每层的 kernel 大小是 15x15,步长为 4,然后每层卷积网络后面使用 LeakyReLU 激活函数,网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段,上述的卷积网络可以得到一个 4x1024 的张量,然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

图片生成器(Image Generator Network):输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签(Identity)。

图片判别器(Image Discriminator Network):判别器由几层步长为 2,kernel 大小是 4x4 的卷积网络组成,并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时,作者拼接了语音的输入,并采用最后一层网络来计算 D 网络的分数。

实验过程

训练:将手动处理后的数据集作为训练集,采用数据增强等手动。值得注意的是,在处理时将每张图像复制了 5 次,并将其与 4 秒音频里面随机采样的 5 个不同的1秒音频块进行匹配。因此总共有 24K 左右的图像-音频对用于模型训练。其它超参数采用参考的文献设置。

评估:下图给出了可视化的结果,虽然生成的图像都比较模糊,但基本可以观察到人的面部特征,并且有不同的面部表情。

作者进一步微调了一个预训练的 VGG-FACE Descriptor 网络,用于量化测试结果,在作者提供的数据集上,可以达到 76.81% 的语音识别准确率和 50.08% 的生成图像准确率。

为了评估模型生成图像的真实程度,作者定义了一个 68 个人脸关键点的精度检测分数。如下图所示,测试结果精度可以达到 90.25%。表明在大多数情况下生成的图像保留了基本的面部特征。

感兴趣的小伙伴们可以下载阅读研究一下~

 热 文 推 荐 

☞贾跃亭吹过的牛,苹果来实现?

☞一行代码引发的恐惧

☞Google 产品的消亡史!

☞@程序员,你会教自己的孩子学习编程吗?

☞代码重构!你敢吗?!

☞30位90后霸榜! 福布斯: 比你年轻、比你有颜、比你有才华, 就是他们了!

☞Facebook开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形 | 极客头条

☞OpenStack已死?恐怕你想多了 | 技术头条

☞刺激!我31岁敲代码10年,明天退休!

System.out.println("点个在看吧!");
console.log("点个在看吧!");
print("点个在看吧!");
printf("点个在看吧!\n");
cout << "点个在看吧!" << endl;
Console.WriteLine("点个在看吧!");
Response.Write("点个在看吧!");
alert("点个在看吧!")
echo "点个在看吧!"

你点的每个“在看”,我都认真当成了喜欢

仅用语音,AI 就能“脑补”你的脸! | 技术头条相关推荐

  1. 仅用语音,AI就能“脑补”你的脸! | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」,购票请扫码咨询 ↑↑↑ 作者 | Wav2pix 研究团队 译者 | 刘畅 编辑 | Jane 出品 |  AI科技大本营(公众号id ...

  2. CVPR2022 | 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  3. 【CVPR 2022】只用一张图+相机走位,AI就能脑补周围环境

    来源:量子位 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染出的图像通通都是高保真效果,仿佛是用真相 ...

  4. 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  5. 想象力惊人!只凭一句话,AI就能脑补出动漫小片

    岳排槐 发自 凹非寺 量子位 出品 | 公众号 QbitAI <摩登原始人>你看过么? 这是一道暴露年龄题. 安妮薇,<摩登原始人>是一部首播于1960年的喜剧动画片.第一季在 ...

  6. CVPR 2022 | 惊呆了!只用一张图+相机走位,AI就能脑补周围环境!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 明敏 发自 凹非寺 转载自:量子位(QbitAI) 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是 ...

  7. DeepMind新论文:给侧面照片,AI给你脑补出正面

    来源:澎湃新闻 摘要:大家在学生时代可能都面对过这些涉及空间想象的几何题.从根本上,它们考验的是2D图像和3D场景间的转换能力.如今,人工智能也成功打破了这种"次元壁". 用小立方 ...

  8. 只需 2 张照片就能 2D 变 3D,这个 AI 能自己脑补蜡烛吹灭过程

    2张废片啪地一合! 错过的精彩瞬间立刻重现,还能从2D升到3D效果. 看,小男孩可爱的笑容马上跃然浮现: 吹灭生日蛋糕蜡烛的瞬间也被还原了出来: 咧嘴笑起来的过程看着也太治愈了吧~ 咱就是说,这回相机 ...

  9. 拿来就能用!如何用 AI 算法提高安全运维效率? | 技术头条

    作者 | 黄龙 责编 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 在整个安全工作中,安全运维是不可或缺的一环,其目的是保证各项安全工作持续有效地运作.除了对外的沟通和业务对接相关工作,大 ...

最新文章

  1. MySQL数据库+命令大全+常用操作
  2. 通常我们将python语言程序保存在一个后缀_ACAA网络设计师模拟题
  3. SAP RETAIL 事务代码MP38可以为多个物料执行预测
  4. java加载不进去_java sql添加不进去
  5. matlab中并行用不了,请教matlab在linux下的并行问题 - 程序语言 - 小木虫 - 学术 科研 互动社区...
  6. 函数式编程——做到并发,不可变数据修改就只能复制后修改返回
  7. 撰写英文SCI文章的技巧
  8. CTF ---pwndbg 调试常用命令
  9. 多个服务器数据互通_5月23日部分服务器数据互通公告!
  10. fastreport iif小于条件_杭州灭菌柜验证需要什么条件
  11. 在Reporting Services (RDL)中自动生成大量列
  12. 微信 9 年:张小龙指明方向,微信 AI 全面开放 NLP 能力
  13. 大家都在发圣诞树,我偏偏要发一个圣诞小游戏给大家玩【内附源码】
  14. 机械原理c语言程序,机械原理课程设计心得体会范文
  15. linux命令ls查看内存,Linux ls 命令详解
  16. 干货 | 关于等效电路图画法,不得不学的几个小窍门!
  17. 对于position定位的认识
  18. what is MacPorts?
  19. 由于找不到opencv_world310d.dll,无法继续执行代码。重新安装程序可能会解决此问题。
  20. 文心一言能成为中国版的ChatGPT吗?

热门文章

  1. leetcode 859 亲密字符串
  2. Pytorch nn.Fold()的简单理解与用法
  3. kalman filter java_Kalman filters(一)
  4. R语言——决策树模型
  5. 项目管理excel_项目管理甘特图是什么?怎么做才能更高效?(EXCEL制作甘特图详细步骤)...
  6. 中国连接系统市场趋势报告、技术动态创新及市场预测
  7. java爬虫防屏蔽_Java爬虫技术之绕过百度云防护抓取网站内容
  8. 电工结业试卷_电工学试题.doc
  9. Java使用循环创建多个线程
  10. 砸入近 30 亿美元后,马斯克拒绝加入 Twitter 董事会