
지난 몇 달간 크게 화제가 된 ‘딥페이크(Deepfake)’ 기술은 인공지과 안면 매핑 기술을 이용해 만든 영상 편집 기술의 일종이다. 특정 인물의 얼굴 위에 컴퓨터 그래픽이나 다른 얼굴 이미지를 덮어씌워 합성하는 데 활용된다.
인공지능 기술의 발달과 함께 2D 영역에서만 가능하던 것이 3D 영역에서도 가능해졌다. 또, 이전에는 프레임 하나하나 수작업을 거쳐 합성 작업을 했다면, 현재는 인공지능 알고리즘을 통해 자동으로 영상에 딥페이크를 적용하며 빠르고 정교한 합성을 할 수 있다.
스트리밍 서비스 hulu 유튜브 채널 영상
딥페이크 기술은 기업 홍보에도 활용되기도 한다.
대표적인 사례로 스트리밍 사이트 훌루(Hulu)를 언급할 수 있다. 훌루는 NBA 선수 데미안 릴라드, WNBA 선수 스카일라 디긴스 스미스, 캐나다 하키 선수 시드니 크로스비가 출연하는 스포츠 채널 서비스 재개의 홍보 광고를 내보냈다.
스타 선수의 얼굴은 딥페이크 기술을 사용해, 대역 배우의 얼굴에 겹쳐진다. 줌으로 캡처한 선수 영상을 바탕으로 훈련된 인공지능 알고리즘을 통해 영상을 합성해, 광고를 제작한 것이다.
딥페이크에서 더 나아가 ‘딥보이스(Deepvoice)’라는 인공지능 음성 합성 기술도 등장했다. 딥보이스는 유명인의 음성을 이용해 오디오북이나 알람 음성을 생성하는 등 일상 속에서 흔히 찾아볼 수 있다. 딥보이스도 딥페이크와 마찬가지로 딥러닝을 적용해, 더 빠르고 정교한 음성 합성이 가능하다.
딥보이스 기술의 기본적인 원리는 문자 음성 자동변환 기술(TTS)이다. 사람의 목소리를 녹음해 문자로 변환하는 것이 음성 인식이라면, 반대로 음성 합성은 문자를 음성으로 바꾼다.
인공지능이 접목되기 전에는 기계가 말하는 부자연스러운 느낌이 강했다. 그러나 인공지능 덕분에 현재는 실제 인물이 말하는 것처럼 매우 자연스러운 느낌을 준다. 네이버 ‘클로바’, 삼성전자 ‘빅스비’, 카카오 등 여러 기업이 딥보이스를 활용해 다양한 서비스를 지원한다.
네이버 클로바 유튜브 채널 영상
네이버는 TTS 기술을 사용해 자체적으로 HDTS(Hybrid Dnn Text-to-Speech) 기술을 연구개발했다. 네이버는 HDTS 기술로 배우 유인나의 음성을 합성해, 오디오북과 인공지능 플랫폼 클로바의 안내음성을 제공한다.
딥페이크와 딥보이스가 우리 삶 속에 들어올수록 악용 사례도 함께 증가하고 있다. 특정 인물의 얼굴이나 목소리를 악용해 가짜 사진, 음성, 동영상을 만들어내는 등 디지털 성범죄에 악용되거나 가짜뉴스를 통해 사람들을 혼란에 빠트리기도 한다.
인공지능 기술의 발달은 우리 삶에 편리함을 주기도 하지만, 가짜 뉴스나 영상에 대해서 경각심을 가지고 지켜보는 자세가 필요할 것으로 보인다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]