文章目录

  • 词汇
  • 论文解读
  • 方法解释
    • 对于预训练的口型鉴别器:
    • 对于生成器:
    • 匹配问题
    • 改进面部质量
    • 训练细节
  • 总结

词汇

  • rigorous /'rɪɡərəs/ 严格的;缜密的
  • benchmark 一般指测量基准
  • metrics /'mɛtrɪks/ 衡量指标
  • extensive quantitative evaluations 广泛定量评估
  • With the exponential rise in xx 在什么领域的指数上升
  • quintessential need /ˌkwɪntɪ’sɛnʃəl/ 基本需求
  • mitigate /'mɪtɪɡet/ 减轻, 缓解
  • fine-grained 细粒度

论文解读

该文章是集中在修改视频的嘴部区域,输入是视频与音频,之前的方法有做静态图片的,现在还在纠结以后是做图片方面还是视频方面。论文有四个contributions:

  1. 提出了嘴型同步网络:Wav2Lip
  2. 提出了新的评估框架和衡量指标
  3. 发布了一个可以作为测量基准的数据集:ReSyncED
  4. Wav2Lip准确度高,是第一个不受说话人影响的模型

一般像素级的损失是对整个图片而言,但是嘴部区域只占图片的一小部分,所以许多网络先进行周围区域的优化,然后再主要对嘴部区域进行操作。这就使得一开始的几次epoch并未对嘴部形成约束,所以作者想再加一个额外的判别器判断嘴型同步。当然LipGAN里有一个,但是不够强大。原因有二,一个是LipGAN使用单张图片做口型同步检测,另外训练过程有许多伪影,使得判别器注意力并不在嘴部。作者验证得出加入上下文信息检测lip sync是很有用的。
对于口型同步鉴别这块,作者借鉴了SyncNet, 参见Syncnet

方法解释

专家口型同步鉴别器与生成器借鉴了别人的方法, 整体架构如图:

对于预训练的口型鉴别器:
  • 首先是对Syncnet的处理, 论文作者对其进行了三个改进:
  1. 原来网络使用灰度图, 这里可以使用彩色图
  2. 通过残差模块网络变得更深了
  3. 将损失函数改为了余弦相似度, 公式如下图:

    其实余弦相似度就是计算余弦值, 为1说明两者重合, 为-1则相反, 不过论文中说范围是0~1.
    通过在LRS2数据集上的训练, 就得到了一个比较好的口型同步鉴别器.
对于生成器:
  • 有了鉴别器之后就是生成器, 这里作者借用了LipGAN的生成器结构, 参见论文Towards Automatic Face-to-Face Translation

  • 这里存在一个问题, 假如要将生成器与鉴别器同时使用, 需要考虑到输出的匹配, 因为唇形同步鉴别器一次输入是5帧, 该怎么匹配这个地方呢?

匹配问题

首先令生成器生成5帧, 为参考帧采样一个随机的连续窗口, 也就是输入改为连续的5帧了,以确保整个TV=5T_V=5TV​=5帧窗口的姿势等在时间上的一致性。
由于生成器独立处理每个帧,因此沿批处理维度堆叠时间步(stack the time-steps along
the batch dimension), 这里应该是按时间取了5帧, 独立生成, 正好对应预训练的鉴别器, 同时馈入参考帧以获得(N⋅Tv,H,W,3)(N·T_v,H,W,3)(N⋅Tv​,H,W,3)的输入形状,N,H,WN,H,WN,H,W分别是批处理大小,高度和宽度。
生成器独立生成帧之后按时间顺序channel维度级联, 因为同步鉴别器就是这样训练的.
最终输入到同步判别器的形状是(N,H/2,W,3⋅Tv)(N,H/2,W, 3·T_v )(N,H/2,W,3⋅Tv​), HHH变为一般是因为仅将生成的面部的下半部分用于识别

还对生成器进行了培训,最小化同步鉴别器的“专家同步损失” EsyncE_{sync}Esync​:

PsynciP^i_{sync}Psynci​ 是由之前改进的口型同步鉴别器的余弦相似度损失, 注意在生成器训练期间口型同步鉴别器权重是冻结的, 这样就迫使生成器注意口型同步.

改进面部质量

现在使用了口型同步鉴别器, 视频同步精度有了保证, 但是只有这单个鉴别器会使得变形的区域有模糊或伪影. 为了减轻这种质量损失, 于是与生成器共同训练了一个视觉质量鉴别器. 还是强调这里未对口型同步鉴别器进行训练, 参见上文.
鉴别器DDD由一堆卷积块组成。每个块由一个卷积层和紧随其后的ReLUReLUReLU激活层组成.

  • 鉴别器经过训练以使目标函数LdiscL_{disc}Ldisc​最大化:

其中LgL_gLg​对应于来自生成器G的图像,LGL_GLG​对应于真实图像。

  • 而生成器将下面的方程最小化,该方程式是重建损失来源在此,同步损失(就是上面对生成器训练时口型同步器的判断EsyncE_{sync}Esync​)和对抗损失LgenL_genLg​en(参见上文) 的加权和:


其中sws_wsw​是同步惩罚权重,sgs_gsg​是对抗损失,在所有的实验中均设置为0.03和0.07。
因此,完整网络使用两个不相交的鉴别器进行了优化,以实现卓越的同步精度和质量

训练细节

仅在批量大小为80的LRS2LRS2LRS2数据集上训练模型。使用Adam优化器, 初始学习率为1e−4,β1β_1β1​ = 0.5, β2β_2β2​ = 0.999用于生成器和视觉质量鉴别器D。口型同步鉴别器没有进一步fine-tuned, 即冻结了权重.

总结

因为采用了LipGAN的生成器自然输出时一帧一帧的, 每个时间步长(因为要凑口型同步鉴别器所以是5帧)的输入时当前的面部crop(来源于source frame), 和相同的frame只不过是下半部分被遮挡了. 因此,在推理过程中,模型不需要更改姿势,从而大大减少了伪像。

论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild相关推荐

  1. 【MM2020】【lip generation】A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    注:拉到最后有视频版哦~ 论文地址:https://bhaasha.iiit.ac.in/lipsync 这次给大家讲一篇做 lip generation 的文章,发表在 MM 的 2020 上 效果 ...

  2. A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译

    你所需要的语音对口型专家,自然场景下的进行语音对口型的生成 图1: 我们的新型Wav2Lip模型在动态的.无约束的人脸对话视频中产生了明显更准确的唇部同步.定量指标表明,我们生成的视频中的唇部同步几乎 ...

  3. 阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    概述 文章提出 Wav2Lip,基于音频合成对应唇形视频.文章提出实际视频中的不同姿态.尺度.光照的变化,而生成的视频也需要无缝融合到目标视频中.而一些模型可以在静态图像上表现比较好,但是在视频上的效 ...

  4. Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

    ABSTRACT: 在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题.当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好.我们找到了导致这种问题的主要 ...

  5. 论文阅读: Towards Automatic Face-to-Face Translation

    文章目录 前言 正文 论文目的 方法 LipGAN Face Encoder Audio Encoder Face Decoder Discriminator network 训练过程 训练细节 前言 ...

  6. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

  7. 【论文阅读】Learning Traffic as Images: A Deep Convolutional ... [将交通作为图像学习: 用于大规模交通网络速度预测的深度卷积神经网络](1)

    [论文阅读]Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation ...

  8. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  9. [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

最新文章

  1. 在VS下用C语言连接SQLServer2008
  2. 机器学习成为未来趋势 北美未来将保持最大市场规模
  3. android捕获方法,android捕获Home键的方法
  4. 163k地方门户网站系统团购定时结束限量控制
  5. 游戏服务器正式发布时动态库处理的两种策略
  6. 一个特殊的内码转换处理对于XML格式的UTF-8
  7. 盘点 Greenplum 数据库的十大特点
  8. 高效代码审查的十个经验
  9. eks volumn s3_和平精英:SMG战队无缘总决赛,S3前提退场原因一览
  10. python绘制国际象棋规则口诀_用Python编写一个国际象棋AI程序
  11. 李华锦叔叔:追女生该如何正确的花钱?
  12. 中望cad文字显示问号怎么办_中望CAD图纸显示乱码?如何快速解决字体问题
  13. html5 人脸活体识别,基于HTML5的人脸识别活体认证的实现方法.pdf
  14. Jupyter Lab 十大高生产力插件
  15. 怎样在今日头条引流卖产品?今日头条免费引流技巧?
  16. DIY电工维修如何拆卸和安装开关面板插座
  17. 霍尔开关传感器的选型
  18. [OpenCV实战]6 图像拼接和图像融合
  19. windows获取系统显卡信息(一)
  20. iOS获取ipa及解压Assets.car,兼容M1

热门文章

  1. 全球及中国睡眠呼吸面罩行业研究及十四五规划分析报告
  2. 深富策略:过去十年中9月上涨较高的板块曝光
  3. 【关于时间序列的ML】项目 3 :基于机器学习的地震预测模型
  4. 31条指令单周期cpu设计(Verilog)-(二)总体设计
  5. Java中Vector类
  6. WPF 自定义控件之Avatar 头像
  7. python while 循环 全局变量_黄老师Python学院编程原来如此简单 第一讲
  8. 产品学习--抖音短视频产品框架
  9. live555库安装_live555库的使用总结 | 学步园
  10. 马明哲:新数字化之我见