딥브레인AI의 딥러닝 기반 영상 및 음성 합성 기술

 

AI Human은 딥러닝 AI기술을 기반으로 사람 얼굴을 학습하여 텍스트만 입력하면 사람의 말투, 억양 등과 같은 목소리 뿐만 아니라 영상으로 말하는 얼굴, 표정, 움직임까지 자연스럽게 표현이 가능한 기술입니다.

오늘은 딥러닝 기반의 영상합성 관련 학습모델에 대한 설명과 딥브레인AI만의 AI Human 구현 기술을 소개 합니다.

 

1)기술과 관련된 주요 학습모델

[CNN-이미지분류 알고리즘]

Convolution Neurul Networks(합성곱 신경망)으로 Filter(shared weights) 를 적용해 feature를 추출하는 방법으로 이미지를 분석하는 기술입니다. Feature는 input으로 부터 다양한 특징을 추출한 데이터를 의미합니다.

 

<CNN Architecture>

 

 

CNN의 기능은 이미지를 분류하고 인식할 수 있습니다.

 

[GAN]
Generative Adversarial Networks GAN은 언뜻 보면 진짜 같은 ‘그럴듯한 가짜’를 만들어서 진짜와 구분하지 못하게 될 때까지 학습을 반복하는 적대적 생성 신경망 딥러닝 모델입니다. 생성자가 랜덤 노이즈로부터 이미지를 생성한 뒤 판별자가 True image와 fake image를 보고 true/false를 판단하여 생성자를 학습합니다.

 

2)딥브레인AI만의 차별화된 기술

 

<립 싱크 얼굴 합성>

딥브레인AI는 립싱크 얼굴 합성 기술을 보유하고 있습니다. 립싱크 (Lip Sync) 방법은 특정 인물이 말하는 영상에서 임의의 음성을 입력으로 입 모양 등이 주어진 음성과 일치하도록 원본 영상을 합성하는 방법으로 음성으로부터 영상의 발화 동작(입 모양, 턱 움직임, 목 움직임)을 제어하는 기술입니다. 즉 임의의 음성과 배경 영상을 입력으로 말하는 인물 영상을 합성할 수 있습니다.
음성에 따른 다양한 행동 패턴을 개발하기 위하여는 인물의 발화 영상에서 특징 벡터를 추출하여 행동 패턴에 대한 분포를 정보화하고, 음성으로부터 특징 벡터를 학습하여 음성에 따른 행동 패턴을 개발하는 절차로 수행됩니다.

 

 

<실시간 영상합성 기술>

딥브레인AI는 프로세스 최적화 기술 개발을 통해 세계 최초 실시간 영상합성에 성공했습니다. 기본적으로 고객들과 실시간으로 소통을 할 수 있는 영상합성을 구현하기 위해서는 크게 세 가지 기술이 필요합니다. 그 첫 번째로 배치 기술입니다. 영상합성의 속도 최적화를 위해 자체 일괄처리 기술을 개발하고 적용하였습니다. 여러 개의 합성 요청을동시에 처리함으로써 영상합성에 필요한 대기 시간 단축을 가능하게 해줍니다. 두 번째로 캐시서버 최적화 기술입니다. 대부분의 대화는 데이터화 하여 보유가 가능하기 때문에 중복사용이 예상되는 질문, 대화 등을 캐시서버에 구축해 두어 실시간으로 빠르게 영상을 송출할 수 있게 해 줍니다. 그리고 마지막으로 Idle Framing 기술입니다. 인공지능 모델이 말하는 도중에는 표현이 자연스럽지만, 사용자가 말하는 중에 정지상태로 있게 되면 사용자가 굉장히 부자연스러운 느낌을 받을 수 있습니다. 이러한 부분을 극복하고자 사용자가 말하는 중에도 자연스러운 움직임으로 듣고 있는 듯한 느낌을 주어 괴리감을 최소화 할 있습니다.