
국내 AI전문가들로 구성된 AI원팀이 산학연 공동연구를 통해 AI기술 4종을 개발했다.
개발한 AI 중 Δ로봇 실내 공간지능 기술 Δ로봇 소셜 인터랙션(Social Interaction) 기술 Δ보이스 클로닝(Voice Cloning) 기술 Δ한국어 E2E 음성인식 트랜스퍼 러닝(Transfer learning) 기술은 KT AI 사업과 서비스의 핵심 기술로 활용한다.
AI원팀은 2020년 2월 출범 이후 40여명의 국내 AI 전문가 그룹인 AI구루(Guru) 그룹을 구성해 현안 해결 프로세스 라운드테이블에서 기업 난제를 논의해 왔다.
그 결과 산학연 공동 연구과제가 결정됐으며 지난해 무빙 픽처, 딥러닝 음성합성 등 4개 기술을 개발해 공개한 바 있으며 이번에 4개 AI기술을 추가로 개발했다.
이번에 개발한 로봇 실내 공간지능 기술은 KT와 KAIST 명현 교수가 함께 개발했다. 로봇이 실내 공간의 사물을 식별하고 사물의 위치를 기억하는 기술이다.
로봇이 공간 내에서 특정 사람이나 사물 등 객체의 종류와 위치를 인식해 3D 지도를 생성하고, 실시간 업데이트를 가능하게 만든다. AI원팀은 이 알고리즘을 바탕으로 실내 자율주행에 접목하는 2차연도 연구를 지속할 예정이다.
로봇 소셜 인터랙션 기술은 KT와 KAIST 윤성의 교수 연구진을 함께 개발했으며 사용자의 얼굴과 행동을 인식한 후 로봇이 수행할 행동을 추천하는 알고리즘을 구현했다. KT로봇은 향후 이같은 개별 알고리즘을 연결해 로봇의 개인화된 상호작용을 구현한다.
보이스 클로닝 기술은 KT와 KAIST 김회린 교수가 공동 연구했으며 개인화 음성합성을 위한 목소리 복원 알고리즘이다. 개인의 오디오 샘플을 딥러닝으로 학습해 커스텀 보이스를 제공하는 개인화 TTS 서비스의 핵심 기술이다.
연구진은 지난해 비용은 4분의1 수준으로 줄이고, 속도는 10배 가량 향상 시키는 CPU 기반 음성합성 알고리즘 개발에 성공했으며, 이번 연구에서는 커스텀 보이스 학습에 필요한 녹음 시간을 기존 30분에서 3분으로 단축했다.
KT와 한양대 장준혁 교수가 개발한 한국어 E2E 음성인식 트랜스퍼 러닝 기술은 기존 최고 성능을 내는 딥러닝 음성인식 모델 대비 에러율이 13.7% 감소하는 등 세계 최고 수준의 음성인식 성능을 검증했다. 또한 모델을 처음부터 다시 학습하는 것이 아닌 기존 모델을 재사용하는 방식으로 소량의 도메인 데이터를 활용한 음성인식 개선이 가능해졌다.
한편, AI 원팀은 KT를 비롯해 현대중공업그룹, LG전자, 한국투자증권, 동원그룹, 우리은행, ㈜한진, 한국과학기술원(KAIST), 한양대, 한국전자통신연구원(ETRI)까지 총 10개 산학연이 참여하고 있다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]