论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
文章目录
- 词汇
- 论文解读
- 方法解释
- 对于预训练的口型鉴别器:
- 对于生成器:
- 匹配问题
- 改进面部质量
- 训练细节
- 总结
词汇
- rigorous /'rɪɡərəs/ 严格的;缜密的
- benchmark 一般指测量基准
- metrics /'mɛtrɪks/ 衡量指标
- extensive quantitative evaluations 广泛定量评估
- With the exponential rise in xx 在什么领域的指数上升
- quintessential need /ˌkwɪntɪ’sɛnʃəl/ 基本需求
- mitigate /'mɪtɪɡet/ 减轻, 缓解
- fine-grained 细粒度
论文解读
该文章是集中在修改视频的嘴部区域,输入是视频与音频,之前的方法有做静态图片的,现在还在纠结以后是做图片方面还是视频方面。论文有四个contributions:
- 提出了嘴型同步网络:Wav2Lip
- 提出了新的评估框架和衡量指标
- 发布了一个可以作为测量基准的数据集:ReSyncED
- Wav2Lip准确度高,是第一个不受说话人影响的模型
一般像素级的损失是对整个图片而言,但是嘴部区域只占图片的一小部分,所以许多网络先进行周围区域的优化,然后再主要对嘴部区域进行操作。这就使得一开始的几次epoch并未对嘴部形成约束,所以作者想再加一个额外的判别器判断嘴型同步。当然LipGAN里有一个,但是不够强大。原因有二,一个是LipGAN使用单张图片做口型同步检测,另外训练过程有许多伪影,使得判别器注意力并不在嘴部。作者验证得出加入上下文信息检测lip sync是很有用的。
对于口型同步鉴别这块,作者借鉴了SyncNet, 参见Syncnet
方法解释
专家口型同步鉴别器与生成器借鉴了别人的方法, 整体架构如图:
对于预训练的口型鉴别器:
- 首先是对Syncnet的处理, 论文作者对其进行了三个改进:
- 原来网络使用灰度图, 这里可以使用彩色图
- 通过残差模块网络变得更深了
- 将损失函数改为了余弦相似度, 公式如下图:
其实余弦相似度就是计算余弦值, 为1说明两者重合, 为-1则相反, 不过论文中说范围是0~1.
通过在LRS2数据集上的训练, 就得到了一个比较好的口型同步鉴别器.
对于生成器:
有了鉴别器之后就是生成器, 这里作者借用了LipGAN的生成器结构, 参见论文Towards Automatic Face-to-Face Translation
这里存在一个问题, 假如要将生成器与鉴别器同时使用, 需要考虑到输出的匹配, 因为唇形同步鉴别器一次输入是5帧, 该怎么匹配这个地方呢?
匹配问题
首先令生成器生成5帧, 为参考帧采样一个随机的连续窗口, 也就是输入改为连续的5帧了,以确保整个TV=5T_V=5TV=5帧窗口的姿势等在时间上的一致性。
由于生成器独立处理每个帧,因此沿批处理维度堆叠时间步(stack the time-steps along
the batch dimension), 这里应该是按时间取了5帧, 独立生成, 正好对应预训练的鉴别器, 同时馈入参考帧以获得(N⋅Tv,H,W,3)(N·T_v,H,W,3)(N⋅Tv,H,W,3)的输入形状,N,H,WN,H,WN,H,W分别是批处理大小,高度和宽度。
生成器独立生成帧之后按时间顺序channel维度级联, 因为同步鉴别器就是这样训练的.
最终输入到同步判别器的形状是(N,H/2,W,3⋅Tv)(N,H/2,W, 3·T_v )(N,H/2,W,3⋅Tv), HHH变为一般是因为仅将生成的面部的下半部分用于识别
还对生成器进行了培训,最小化同步鉴别器的“专家同步损失” EsyncE_{sync}Esync:
PsynciP^i_{sync}Psynci 是由之前改进的口型同步鉴别器的余弦相似度损失, 注意在生成器训练期间口型同步鉴别器权重是冻结的, 这样就迫使生成器注意口型同步.
改进面部质量
现在使用了口型同步鉴别器, 视频同步精度有了保证, 但是只有这单个鉴别器会使得变形的区域有模糊或伪影. 为了减轻这种质量损失, 于是与生成器共同训练了一个视觉质量鉴别器. 还是强调这里未对口型同步鉴别器进行训练, 参见上文.
鉴别器DDD由一堆卷积块组成。每个块由一个卷积层和紧随其后的ReLUReLUReLU激活层组成.
- 鉴别器经过训练以使目标函数LdiscL_{disc}Ldisc最大化:
其中LgL_gLg对应于来自生成器G的图像,LGL_GLG对应于真实图像。
- 而生成器将下面的方程最小化,该方程式是重建损失来源在此,同步损失(就是上面对生成器训练时口型同步器的判断EsyncE_{sync}Esync)和对抗损失LgenL_genLgen(参见上文) 的加权和:
其中sws_wsw是同步惩罚权重,sgs_gsg是对抗损失,在所有的实验中均设置为0.03和0.07。
因此,完整网络使用两个不相交的鉴别器进行了优化,以实现卓越的同步精度和质量
训练细节
仅在批量大小为80的LRS2LRS2LRS2数据集上训练模型。使用Adam优化器, 初始学习率为1e−4,β1β_1β1 = 0.5, β2β_2β2 = 0.999用于生成器和视觉质量鉴别器D。口型同步鉴别器没有进一步fine-tuned, 即冻结了权重.
总结
因为采用了LipGAN的生成器自然输出时一帧一帧的, 每个时间步长(因为要凑口型同步鉴别器所以是5帧)的输入时当前的面部crop(来源于source frame), 和相同的frame只不过是下半部分被遮挡了. 因此,在推理过程中,模型不需要更改姿势,从而大大减少了伪像。
论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild相关推荐
- 【MM2020】【lip generation】A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
注:拉到最后有视频版哦~ 论文地址:https://bhaasha.iiit.ac.in/lipsync 这次给大家讲一篇做 lip generation 的文章,发表在 MM 的 2020 上 效果 ...
- A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译
你所需要的语音对口型专家,自然场景下的进行语音对口型的生成 图1: 我们的新型Wav2Lip模型在动态的.无约束的人脸对话视频中产生了明显更准确的唇部同步.定量指标表明,我们生成的视频中的唇部同步几乎 ...
- 阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
概述 文章提出 Wav2Lip,基于音频合成对应唇形视频.文章提出实际视频中的不同姿态.尺度.光照的变化,而生成的视频也需要无缝融合到目标视频中.而一些模型可以在静态图像上表现比较好,但是在视频上的效 ...
- Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析
ABSTRACT: 在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题.当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好.我们找到了导致这种问题的主要 ...
- 论文阅读: Towards Automatic Face-to-Face Translation
文章目录 前言 正文 论文目的 方法 LipGAN Face Encoder Audio Encoder Face Decoder Discriminator network 训练过程 训练细节 前言 ...
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
- 【论文阅读】Learning Traffic as Images: A Deep Convolutional ... [将交通作为图像学习: 用于大规模交通网络速度预测的深度卷积神经网络](1)
[论文阅读]Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation ...
- Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
- [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
最新文章
- 在VS下用C语言连接SQLServer2008
- 机器学习成为未来趋势 北美未来将保持最大市场规模
- android捕获方法,android捕获Home键的方法
- 163k地方门户网站系统团购定时结束限量控制
- 游戏服务器正式发布时动态库处理的两种策略
- 一个特殊的内码转换处理对于XML格式的UTF-8
- 盘点 Greenplum 数据库的十大特点
- 高效代码审查的十个经验
- eks volumn s3_和平精英:SMG战队无缘总决赛,S3前提退场原因一览
- python绘制国际象棋规则口诀_用Python编写一个国际象棋AI程序
- 李华锦叔叔:追女生该如何正确的花钱?
- 中望cad文字显示问号怎么办_中望CAD图纸显示乱码?如何快速解决字体问题
- html5 人脸活体识别,基于HTML5的人脸识别活体认证的实现方法.pdf
- Jupyter Lab 十大高生产力插件
- 怎样在今日头条引流卖产品?今日头条免费引流技巧?
- DIY电工维修如何拆卸和安装开关面板插座
- 霍尔开关传感器的选型
- [OpenCV实战]6 图像拼接和图像融合
- windows获取系统显卡信息(一)
- iOS获取ipa及解压Assets.car,兼容M1