한국형 딥페이크 탐지 데이터 세트(KoDF) 구축

 

최근 몇 년 동안 영상 합성 기술이 크게 대중화되면서 다양한 분야에 활용되기 시작했습니다. 하지만 일부 합성기술로 제작된 영상은 각종 사회적 문제를 일으키며 딥페이크 영상을 검출하는 기술을 필요로 하게 되었고 다양한 기술들이 등장하기 시작했습니다.

이러한 딥페이크 영상물을 탐지하는 알고리즘의 개발하기 위해서는 변조 데이터가 필요하며 현재 공개된 데이터(FaceForensics++, DeepFaceLab, DFDC 등)들은 백인 얼굴에 편향되어 있거나, 변조모델의 다양성/투명성이 부족하며 일부는 합성기술을 공개하지 않아 실질적인 데이터가 부족한 상태입니다.

딥브레인AI는 이러한 문제점을 해결하고자 한국형 딥페이크 탐지 데이터 세트(KoDF)를 구축하였습니다.
KoDF는 403명의 주제에 대한 175,776개의 가짜 클립과 62,166개의 실제 클립을 포함하는 “딥페이크 탐지 데이터 세트” 입니다.

 

표-1. KoDF와 기존 공개된 딥페이크 탐지 데이터 세트의 정량적 비교

KoDF를 생성하기 위해 총 6가지 모델을 사용하였으며, FaceSwap, DeepFaceLab, FSGAN은 얼굴 스와핑 모델, FOMM(First Order Motion Model)은 비디오 기반 얼굴 재연 모델, ATFHP(Audio-driven Talking Face Head Pose)와 Wav2Lip는 오디오 기반 얼굴 재연 모델에 사용하였습니다.

 

그림-1. KoDF의 합성모델 비율(Synthetic model ratio of KoDF)

후처리 과정
위에 나열된 모든 방법은 전처리 단계에서 잘린 얼굴 영역과 일치하는 일련의 이미지 프레임을 생성하고 대부분의 모델은 얼굴 경계 주변의 정확한 세부사항을 재구성하지 못하기 때문에 합성된 결과를 원래 프레임으로 다시 혼합하는 단계가 필요합니다.
전처리 단계에서 동일한 얼굴 랜드마크 감지 알고리즘을 사용하여 합성된 이미지 프레임에서 얼굴 마스크를 만들고, 마스크 영역의 경계는 아티팩트를 줄이기 위해 가우시안 블러링 과정을 거치며, 블러링된 이미지는 해당 시간적 위치의 원본 비디오 프레임에 혼합하였습니다.

 

합성된 데이터의 품질 평가방법은 구조 유사도 지수 측정(SSIM)과 평균 키포인트 거리(AKD)로 평가하였으며, SSIM는 대상 클립과 생성된 영상 사이의 구조적 유사성을 비교하고, AKD는 대상 비디오를 근거로 주어진 합성 클립의 얼굴 표정의 정확성을 나타냅니다.

 

표-2. 500개의 합성데이터의 모델별 평균 SSIM 및 AKD별 FF++/KoDF 비교.

 

표-2.는 데이터의 전반적인 품질을 평가하기 위해 각 500개의 실제영상과 해당 합성영상을 무작위로 선택하여 각각의 가짜 샘플에서 100개의 프레임을 균일하게 추출하고 동일한 시간 위치에서 실제 일치항목을 가져왔으며, 이 100개 쌍에 대한 SSIM 및 AKD를 계산하고 평균값을 계산하였습니다.

딥페이크 탐지 데이터 세트의 궁극적인 목표는 다양한 실제 딥페이크 사례에 대해 잘 수행되는 일반 탐지 모델을 개발하는 데 도움이 되는 것이지만, 딥페이크 탐지에 대한 대부분의 연구는 특정 딥페이크 탐지 데이터 세트를 기반으로 제안한 탐지 모델이 어떻게 수행되는지 측정하도록 설계되었습니다. 여기서 전제는 대상 딥페이크 탐지 데이터 세트가 실제 딥페이크 인스턴스 분포의 좋은 근사치라는 것입니다.

아래 그림은 실험을 통해 딥페이크 탐지 데이터 세트가 충분한 수준의 일반성을 보장하는지에 대한 내용입니다. (자세한 사항은 관련 논문 참조)

 

“DFDC 우승 감지 모델”의 ROC 곡선. 모델은 각각 FF++, DFDC, KoDF 및 이들의 공용체에 대해 학습된 다음 세 가지 단일 데이터 세트 각각에 대해 평가됩니다.

실험 결과에서 우리는 모델이 자연스럽게 반복되는 다양한 신호(즉, 로컬 패턴 및 전역 구조)를 학습하는 일반 이미지 분류 작업보다 딥페이크 감지 작업이 과적합되기 훨씬 더 쉽다는 것을 추론할 수 있습니다.
반면, 딥페이크 탐지 모델은 생성 과정에서 발생하는 아티팩트에 중점을 두며, 이는 합성 방법론에 따라 불가피하게 다릅니다.
따라서 이상적인 딥페이크 탐지 데이터 세트는 최대한 다양한 딥페이크 방법과 광범위한 실제 비디오의 예를 통합해야 합니다.
지금까지 발표된 독립형 딥페이크 데이터 세트는 이러한 조건을 자체적으로 충족하기에 충분한 일반성을 달성하지 못하는 것으로 보이며 실용적인 솔루션은 인접한 여러 데이터 세트를 활용하는 것입니다.

우리는 연구자들이 딥페이크 탐지 방법을 개발하고 평가하는 데 도움이 되는 새로운 한국형 대규모 데이터 세트를 구축하고자 하였습니다.
KoDF는 광범위한 데이터베이스이지만 2개의 마일스톤 데이터 세트 FF++ 및 DFDC를 포함하여 기존 및 미래의 딥페이크 탐지 데이터베이스의 상호 보완에서 훨씬 더 효과적으로 작동할 것으로 기대합니다.
KoDF가 딥페이크 탐지 분야의 미래 연구를 위한 디딤돌이 되기를 바랍니다.

※위 내용에 대한 자세한 사항 아래 논문 및 공개된 KoDF를 참조하시기 바랍니다.

※본 내용은 딥브레인AI 에서 발표한 논문(KoDF: A Large-scale Korean DeepFake Detection Dataset, https://arxiv.org/abs/2103.10094)을 기반으로 작성되었으며, 해당 논문은 ‘2021 국제 컴퓨터 비전 학회(ICCV)’에 채택되었습니다.

※딥브레인AI에서 구축한 한국형 딥페이크 변조영상 데이터세트(KoDF)는 연구용으로 한국지능정보사회진흥원(NIA)에서 운영하는 AI HUB에 공개되었습니다.(https://aihub.or.kr/aidata/8005)

※본 개발은 ’2020년 AI 학습용 데이터 구축사업 지원을 받아 개발하였습니다. (참여기관 : 서울대학교, 크라우드웍스)