KoDF:打造韩国人DeepFake检测数据集

最近几年,随着影像合成技术的普及,逐渐被应用于不同领域。但是,部分人使用合成技术制作的视频,引发了各种社会问题。现阶段,迫切需要一种检测视频真伪的技术,因此市场上出现了各种DeepFake检测技术。

为了开发出能够检测DeepFake视频的算法,需要虚假视频的数据。目前公开的数据库(FaceForensics++, DeepFaceLab, DFDC等),不是以白人面部为主,就是缺乏虚假视频的多样性,亦或是数据不够透明,部分合成技术未公开,导致真实数据不足。

DeepBrain AI为解决这样的问题,建立了韩国的DeepFake检测数据集(KoDF)。 KoDF是包含175,776个虚假视频和62,166个真实视频的”检测DeepFake的数据集 ” 。

 

表-1. KoDF与目前已经发布的DeepFake检测数据集的定量比较

KoDF中共使用了6种技术, FaceSwap、DeepFaceLab、FSGAN使用面部交换模式,FOMM( 一阶运动模型) 使用基于视频的面部再现模式, ATFHP(Audio-driven Talking Face Head Pose) 和Wav2Lip 使用基于音频的脸部再现模式。

 

图-1. KoDF 的合成方式比率分布( Synthetic model ratio of KoDF)

后期处理过程
以上罗列的所有方法,在前期处理阶段,会生成一系列图像框架,与分割面部区域一致。大部分模型无法准确地展现面部轮廓的细节,所以还有一个步骤是将合成的视频重新融合到原框架中去。
在前期处理阶段,统一使用人脸关键点检测算法,在合成的图像框架中构造面部轮廓,为减少合成痕迹会将面部轮廓的边界进行高斯模糊处理,然后把模糊化的图像融合到原始视频框架对应的时间轴中。

 

对合成数据的质量进行评价,有两种方式:结构相似度指数(SSIM)和平均关键点距离(AKD)。SSIM比较原视频与生成视频之间的结构相似性,AKD以原视频为依据来判断合成视频中面部表情的准确性。

 

表-2. 将500个合成数据根据模型进行分组,以SSIM、AKD为基准进行FF++/KoDF比较。

 

表-2.为了评价数据的整体情况,随机选择500个真实视频和与之相应的虚假视频(合成视频),分别从中抽取100个样本,在同一时间轴获取相同部分,计算出100对视频的SSIM、AKD和平均值。

DeepFake检测数据集的最终目标是为了促进开发一般检测模型,以便在不同的DeepFake实例中都能够正常运行。但对DeepFake检测的大部分研究是以特定DeepFake检测数据集为基础,为了测出指定的检测模型是如何运行而进行设计的。 这里的前提是,这个DeepFake检测数据集是最接近真实DeepFake的实时分布值。

下图是通过实验来确保DeepFake检测数据集具备一般性。(详细内容请参考相关论文)

 

DFDC(Deepfake 检测挑战赛)中获胜算法的ROC曲线”。FF++、DFDC、KoDF及融合三种数据集进行学习,模型对以下三种单一数据集分别进行评价。

我们从实验结果中可以推断,一般图像分类工作需要模型反复在不同信号下学习(即本地模式和全局模式),与之相比,使用DeepFake检测技术更容易超额完成。
相反,DeepFake检测将重点放在虚假视频出现过程中产生的合成痕迹上。由于合成方法的理论不同,合成痕迹也会有所不同。
因此,要想获得准确的DeepFake检测数据集,需要尽可能地整合多种DeepFake方法和各种类型的真实案例。
到目前为止,单独发布的DeepFake数据集似乎无法满足这些条件,实现数据的一般性。真实有效的解决方案是使用邻近的多种数据集。

我们试图建立一个新的大规模韩国人数据集,为研究者开发和评价DeepFake检测方法贡献一份力量。
KoDF拥有庞大的数据库,包括两个巨大的数据集:FF++和DFDC。希望能与现有以及未来的DeepFake检测数据集互相补充,有效提高运作效率。
希望KoDF能够成为DeepFake检测领域未来研究的基石。

 

※以上内容,请参考下列论文及KoDF公开内容。

※本内容以DeepBrain AI发表的论文(KoDF: A Large-scale Korean Deep Fake Detection Dataset, https://arxiv.org/abs/2103.10094) 为基础,相关论文被”2021国际计算机视觉大会(ICCV)”采用。

※DeepBrain AI建立的KoDF——韩国人的DeepFake检测数据集,作为研究资料向韩国信息化社会振兴院(NIA)运营的AI HUB公开。(https://aihub.or.kr/aidata/8005)

※该技术是在获得2020年构建AI学习用数据项目的支援后研发出来的。 (参与机构:首尔大学,Crowdworks)