
딥페이크 기술이 조작한 사진이나 영상이 사람과 합성 이미지 감지 기술을 속이는 사례가 다수 보고됐다. 그리고, 이제는 딥페이크 영상이 시각적 요소를 넘어서 청각적인 요소로도 인간과 기술을 모두 속일 수 있는 것으로 드러났다.
딥페이크 음성, 음성비서·인간 모두 속인다
영국 일간지 데일리메일에 따르면, 미국 시카고대학교 산하 보안·알고리즘·네트워킹·데이터(SAND) 연구소 소속 연구팀이 깃허브에 공개한 딥페이크 합성 음성 프로그램 'SV2TTS'가 학계에서 화제가 되었다. SV2TTS가 아마존의 알렉사, 위챗, 마이크로소프트 애저(Azure) 등 일부 음성 인식 기술로 기기 잠금 해제에 성공했기 때문이다.
SV2TTS는 약 30%의 확률로 마이크로소프트 애저를 속일 수 있었으나 위챗과 아마존 알렉사는 평균 63%의 확률로 속이는 데 성공했다.
SV2TTS는 음성비서 뿐만 아니라 인간의 귀도 속였다. 연구팀은 피실험자 200명을 모집해, 실제 인간의 음성과 딥페이크 음성을 들려준 뒤 가짜 음성을 구분할 것을 요청했다. 그러나 피실험자 절반이 진짜 음성과 딥페이크 음성을 구분하지 못했다.
특히, 연구팀은 뉴사이언티스트와의 인터뷰에서 여성의 음성과 비영어권 인물의 음성을 합성했을 때, 기술과 사람의 귀를 속일 확률이 더 높다고 밝혔다. 연구팀은 여성과 비영어권 인물의 음성에 속아 넘어갈 확률이 높은 이유는 아직 불분명하다며, 추가 연구가 필요하다고 밝혔다.
그러나 연구팀은 SV2TTS를 공개하면서도 "인간과 기계를 모두 속일 수 있다. 그러나 심각한 피해를 유발하는 사이버 공격에 악용될 위험성이 있다"라며, 사이버 보안 문제를 우려하기도 했다.
이에, 이번 연구를 주도한 에밀리 벵거(Emily Wenger) 박사는 "이미 현실 세계에서 딥페이크를 이용한 사이버 공격 피해 사례가 보고된 바 있다. 이번에 공개한 SV2TTS는 기존 딥페이크 합성 음성보다 더 정교하므로 추후 사이버 보안 문제가 더 심각해질 수도 있다. 따라서 딥페이크 음성을 이용한 사이버 공격 개시 과정을 깊이 연구하고자 한다"라고 밝혔다.
딥페이크 음성, 실제 사이버 보안 피해 사례는?
지금까지 보고된 딥페이크 음성을 악용한 사이버 공격 사례 중, 최초의 사례는 2019년, 프랑스 보험사 유러 헤르메스(Euler Hermes)가 보고한 사례이다. 워싱턴포스트에 따르면, 당시 익명의 피해자는 헝가리의 비밀 계정을 통해 현금 송금 압박을 받았다.
당시 해커 세력은 딥페이크 음성으로 특정 인물의 목소리와 함께 억양까지 완벽하게 흉내내 피해자를 감쪽같이 속였다.
그러나 해커 세력이 같은 수법으로 같은 피해자에게 두 번 연속 현금 갈취를 시도할 때, 유러 헤르메스 관계자가 수상함을 인지하고 이를 직접 신고하면서 추가 피해를 막았다.
또, 지난해에는 아랍에미리트의 어느 한 은행 관리자가 딥페이크 음성에 속아 총 3,500만 달러를 건넨 사례가 보고됐다. 포브스, 더레지스터 등 복수 외신에 따르면, 피해자가 근무하는 은행은 다른 기업과의 인수를 추진 중이었으며, 인수 과정을 위해 마틴 젤너(Martin Zelner)라는 이름의 변호사를 선임했다.
당시 인수 과정을 담당한 은행 관리자는 여러 차례의 메일과 음성 파일을 주고받으면서 이상한 낌새를 감지하지 못하고, 인수 금액 3,500만 달러를 건넸다. 그러나 젤너라는 변호사를 가장한 메일은 사기꾼이 보낸 것이며, 음성 파일도 딥페이크로 합성된 것으로 드러났다.
현재 아랍에미리트 당국은 미국 법무부에 사건 수사 협조 요청을 한 상태이다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]