一、论文信息

文章名称:DF-Platter: Multi-Face Heterogeneous Deepfake Dataset

作者团队:

会议:cvpr2023

数据集地址:http://iab-rubric.org/df-platter-database

二、动机与创新

动机

目前大多数研究工作都集中在个人外表受控的高质量图像和视频上。 但是,deepfake 生成算法现在能够创建具有低分辨率、遮挡和操纵多个拍摄对象的 deepfake,这给检测带来了新的挑战。

 创新

作者提出了DF-Platter数据集,该数据集模拟了deepfake生成的真实场景。

  • 使用多种技术生成的低分辨率和高分辨率深度伪造;

  • 带有印度种族面部图像的单主体和多主体深度伪造。

该数据集中的人脸根据性别、年龄、肤色和遮挡等各种属性进行注释。该数据集使用32个GPU和1,800GB的内存准备了116天,它包含三组共133,260个视频。

三、数据集

1、DF-Platter数据集,是一个多人脸异构的 deepfake 数据集。

  • 该数据集利用低分辨率视频生成 deepfakes,这与使用高分辨率视频合成插值 deepfakes 的现有数据集不同。 通过使用低分辨率视频,可以提高低分辨率 deepfakes 的视觉质量。这是因为deepfake 生成算法针对低分辨率视频进行了优化,从而产生了更高质量的 deepfake。

  • 该数据集是包含多个面部的deepfake集合,这意味着每个视频帧中有多个拍摄对象。视频帧中的每张脸都注释为真实或虚假,这样可以对多面部深度伪造进行全面评估。

  • 该数据集提供了具有印度种族主题的deepfakes的性别均衡分布。这意味着男性和女性受试者人数相等,而且受试者是印度裔。并根据性别、年龄、肤色和遮挡等各种属性进行注释。

  2、DF-Platter数据集是使用三种不同的技术生成的:FSGAN、FaceShifter和FaceSwap。 DF-Platter数据集在分辨率和性别之间是平衡的,且数据集中的所有视频提供两个压缩级别c23 和 c40。

3、DF-Platter数据集中的视频是从 YouTube 收集的,YouTube 提供的视频种类繁多,包括性别、取向、肤色、脸部大小、光照条件、背景和遮挡等各不相同。 同时,使用Fitzpatrick量表测量肤色,这是一个数字分类系统,根据肤色对紫外线的反应对肤色进行分类。 当手、头发、眼镜或任何其他物体挡住源面部或目标面部的一部分时,就会发生遮挡

4、真实视频:1)Set A 共包含 602 个用于生成 deepfakes 的真实视频。这些视频的性别和分辨率分布几乎相等,有151个视频针对男性,150个视频针对女性。此外,所有视频都是以低分辨率和高分辨率收集的,每个视频的时长约为20秒。 2)Set B 采用 100 个真实视频来生成 deepfake,低分辨率和高分辨率视频的比例相等。这些视频在视频的一帧内有多个对象,这使得检测deepfakes变得具有挑战性。3)Set C 是使用 62 个真实视频生成的,这些深度伪造是在每帧的多个目标拍摄对象上粘贴名人面孔时生成的,涉及在单个帧中操纵多个面孔。 数据集包含三个压缩级别的所有集合,即 c0、c23 和 c40。

5、虚假视频:1)Set A 包含 130,696 个使用 FSGAN 和 FaceShifter 技术生成的单对象deepfake 视频。有150名女性受试者和151名男性受试者,并包括每个受试者的肤色、面部遮挡和表观年龄的注释。面部遮挡物各不相同,包括胡须、眼镜、帽子/头巾和头发,这些遮挡物存在于不受控制的环境中。 2)Set B 包含 900 个内部深度伪造视频,这些视频是使用 FSGAN、FaceSwap 和 FaceShifter 技术合成的。 Set B 中的每个真实视频至少有 2 个,最多 5 个拍摄对象,其中在生成虚假视频期间,最少 2 个,最多 3 个被交换。 3)Set C 与 Set B 类似,但特别关注印度名人作为deepfake视频中的来源面孔。 Set C 中使用的真实视频与单对象名人面孔交换,其中包含 62 个真实视频和 900 个 deepfake 视频。 DF-Platter 数据集的原始形式约为 417 GB,总共包含 133,260 个视频,每个视频的持续时间约为 20 秒。 4)视频以 MPEG4.0 格式提供,具有高分辨率和相应的低分辨率,所有视频的帧速率均为 25 fps。 该数据集在分辨率、压缩和所使用的生成技术方面始终包含相同的视频。 对于 c23 和 c40 级别的压缩,使用 H.264 视频压缩。

6、数据集使用各种属性进行注释,例如性别分辨率遮挡肤色

  • 性别分为两类,男性或女性。
  • 使用Fitzpatrick量表,每个受试者的肤色以1到6的等级进行注释,菲茨帕特里克量表是一种广泛使用的人类肤色分类系统。

  • 表观年龄属性分为三类:青少年(18 至 30 岁)、成人(30 至 55 岁)和老年(55 岁以上)。 51.33% 的受试者被归类为 “青少年”,42% 的受试者被归类为 “成人”,6.66% 的受试者被归类为 “老人”。

  • 面部遮挡分为八大类:阴影、胡须、眼镜、阴影、麦克风、帽子、头巾/围巾和头发遮挡。 这些属性本质上是二进制的,这意味着受试者要么有遮挡,要么没有遮挡。 胡子是男性中最常见的遮挡类型,大约90%的男性受试者有胡须。

7、数据集分为三组:训练、验证和测试。8:1:1,训练集包含 80% 的视频,而验证和测试集各包含 10% 的视频。 数据集中的视频被随机分配到三个集合,确保每组视频的深度伪造和真实视频的分布均匀。

四、实验

三个问题:1)是否可以检测到被遮挡的深度伪造。2)是否可以检测到视频中的多面部深度伪造。3)是否可以检测到网络和社交媒体上的低分辨率和压缩的deepfakes。

三个协议:1) Occludeepfakes,使用SET A 作为测试集,分为三个子集用于训练、验证和测试。该数据集包含真实视频和虚假视频数量之间的显著差异,这可能会导致数据集出现偏差。为了解决这个问题,在训练不同的架构的同时重复真实的视频,以获得几乎相等数量的真实和虚假样本。然后对最先进的模型进行测试,以检测被遮挡的deepfakes,结果以三种压缩设置(c0、c23 和 c40)提供。

2)Multi-Face Deepfakes 使用SET B 和SET C 作为测试集。SET B 包含 500 个视频,其中 500 个真实帧和 4500 个假帧。每帧可以有一张或多张真面孔或假脸,如果操纵了至少一张脸,则视频被视为假脸。SET C 由481个视频组成,其中31个是真实的,450个是假的。这些模型在SET B 和 C 上进行了性能测试,这两个集合有多个受试者使用各种指标。

3)交叉分辨率和交叉压缩,实验以分析在网络和社交媒体上共享深度伪造的现实环境中现有深度伪造探测器的交叉分辨率和交叉压缩性能。在交叉分辨率实验中,模型在(c0,HR)样本上进行训练,并在(c0,LR)样本上进行测试。在交叉压缩实验中,模型在(c23,HR)样本上进行训练,并在(c40,HR)样本上进行测试。在这两个实验中,训练样本均取自SET A,并在所有三个集合上进行测试。

 这些方法在相同的压缩和分辨率设置下进行了训练和测试,以确保评估过程的一致性和公平性。

  • 评估是针对三组进行的:A组(协议1)、B组和C(协议2)。

  • 对于SET A,使用的评估指标是准确度 (%) 和 AUC(曲线下区域)。

  • 对于SET B 和 C,使用的评估指标是 FaceWA (%)、FaceAuc、FLA (%) 和 VLA (%)。 FaceWA (%) 是指正确识别的 deepfake 人脸的百分比,FaceAuc 是指接收器操作特征 (ROC) 曲线下方的面积,用于人脸水平检测,FLA (%) 是指正确识别的虚假视频的百分比。 -报告了每个集合和协议的评估结果,全面分析了DF-Platter数据集上deepfake检测模型的性能。

论文阅读-DF-Platter: Multi-Face Heterogeneous Deepfake Dataset(多人脸异构深度伪造数据集)相关推荐

  1. 论文阅读:Retrieval-augmented Generation across Heterogeneous Knowledge

    跨异构知识的检索增强生成 NAACL 2022 论文链接 摘要 检索增强生成(RAG)方法越来越受到NLP社区的关注,并在许多NLP下游任务上取得了最先进的性能.与传统的预训练生成模型相比,RAG方法 ...

  2. 【保姆级】论文阅读与分析《Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation》

    <Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation>-by Qingyao A ...

  3. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展

    Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展 目录 Natural Langu ...

  4. 【论文阅读】A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems

    论文对CICIDS2017数据集进行客观评价,介绍了数据集本身存在的缺陷以及解决方法. 摘要: CICIDS2017是2017年提出的,包含了当下最新的威胁种类和特征,相比于之前的数据集,没有重大的缺 ...

  5. 【特征选择_论文阅读_毕业论文】01_张璐_西电_基于深度空间特征学习的极化SAR图像分类_2019

    文章目录 摘要 一.绪论 1.1研究背景和意义 1.2极化SAR图像分类研究现状及难点 1.2.1 极化SAR图像分类现状 1.2.2 分类难点 1.3深度空间特征学习 二.基于栈式稀疏自编码器和高阶 ...

  6. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  7. Dynamic Head Unifying Object Detection Heads with Attentions 论文阅读笔记

    Dynamic Head Unifying Object Detection Heads with Attentions论文阅读笔记 这是微软在CVPR2021发表的文章,在coco数据集上取得了目前 ...

  8. [论文阅读] (07) RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding

    [异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...

最新文章

  1. [leetcode] Recover Binary Search Tree
  2. 华为首款Harmonyos摄像头,掀起家居安防大变革 华为首款HarmonyOS智能摄像头发布...
  3. 蔚来一面:用Object做hashMap的Key时需要做什么?
  4. 陌陌财报双双超预期,什么才是它的基本盘?
  5. python递归算法经典实例-Python递归算法详解
  6. 从拟物到简约 ------谈网站设计风格的变革
  7. scp免密码远程拷贝
  8. arduino naon介绍_Arduino Nano 自制版
  9. c 连接mysql错误信息_使用C语言访问MySQL数据 —— 连接和错误处理
  10. ubuntu 中 ROS 一些报错的解决
  11. 信息系统项目管理系列之二:项目生命期和组织
  12. MVC模式 与 Model2模型 介绍
  13. lstm原文_LRCN: LSTM与CNN相结合模型
  14. 体系建模系统软件:体系结构建模工具攻略
  15. ACS880变频器主从配置
  16. 政务内网、政务外网、政务专网
  17. 关于pandas的这些干货,你也必须知道!
  18. 模型训练过程中产生NAN的原因分析
  19. [电设训练]幅频特性测试仪
  20. Java中随机数的产生

热门文章

  1. YOLOv7之安全帽佩戴检测
  2. Http协议及各版本对比
  3. 各种cdn插件下载或引入链接
  4. (转)一直以来伴随我的一些学习习惯(三):阅读方法
  5. PDF怎么拆成一页一张?教你轻松实现拆分
  6. java中sproingboot导出模板导出excel,以及设置每一个单元格的方式导出。导出工单,周日历。
  7. Win10系统通过VMware安装Centos7,部署KVM安装WIN7虚拟机
  8. MongoDB——删除命令详解
  9. 在线文档技术-编辑器篇
  10. 计算机文件管理ppt,计算机中的文件管理及应用研究.ppt