“시리, 어제 테슬라 주가 좀 보여줘”, “네, 어제 테슬라 주가 정보입니다.”
“시리, 오늘 오후에 눈 와?”, “지금부터 오후 7시까지 눈 소식은 없네요”
오늘도 평소와 같이 시리와의 대화로 아침을 시작한다. 날씨를 묻고, 알람을 맞추고, 주식 정보를 보여달라는 나의 말을 인식하고 그대로 수행한다. 가끔 발음이 부정확할 때를 빼고는 원하는 결과를 대부분 보여준다. 이 음성인식 시스템은 남자, 여자, 노인, 어린아이들의 목소리도 모두 인식하여 동작을 수행한다. 시리뿐만이 아니다.
네이버의 파파고는 자연어 처리 기술로 실시간 번역 서비스를 지원한다. 중국인이 길을 물어보았을 때, 답변자가 한국어로 대답하더라도 해당 답변을 중국어로 변환해 길을 알려줄 수 있다.
구글홈은 집주인의 음성을 알아들어 지시를 수행하는 가정용 스마트 스피커로 조명, TV, 에어컨 등을 컨트롤 할 수 있는 서비스를 제공한다. KT의 ‘기가지니’, 카카오의 ‘카카오미니’ 등의 인공지능 스피커는 음성인식 시스템을 기반으로 사람의 말을 인식하여 음악을 틀어주거나 가까운 사람에게 메시지를 보내주기도 한다.
자연어 처리는 무엇일까?
앞서 말한 모든 사례가 자연어 처리(NLP, Natural Language Processing) 기술을 이용한 것이다. 자연어 처리는 인간의 언어인 자연어를 컴퓨터를 이용해 처리하기 위한 기술 분야이다. 인간의 언어를 이해하는 머신러닝 기술을 적용해 각종 정보처리에 이용함으로써 보다 편리하고 빠르게 정보를 획득한다.
자연어 처리는 단순 정보검색이나 질의응답 시스템뿐만 아니라 기계로 번역하거나 자동 통역을 하고 문서 작성, 요약 분류, 철자 오류를 찾아내 수정하는 등 언어가 사용되는 많은 영역에서 응용되고 있다. 즉 자연어 처리는 한 마디로, 컴퓨터가 인간의 언어를 이해하는 것을 목표로 하여 동작한다.
자연어 처리의 작동 원리
음성인식기는 학습에 필요한 여러 음성신호의 특성을 데이터로 추출한다. 이때 음성신호의 억양, 목소리 크기 등을 숫자 형태의 데이터로 추출한 것을 특징 벡터라 한다. 음성인식기는 특징 벡터를 활용해 음성신호의 의미를 판가름할 기준을 생성한다. 이후 음성인식기는 입력된 음성신호의 패턴을 분석하고, 특징 벡터를 활용해 만들어진 기준과 비교해 가장 유사도가 높은 값을 최종 결과로 도출해낸다. 이러한 결괏값으로 시스템은 자연어 처리를 하기 시작한다.
자연어 처리의 핵심 기술은 ①형태소 분석기술(Morphological Analysis), ②구문분석 기술(Syntax Analysis) , ③의미분석 기술(Sementic Analysis), ④담화 분석 기술, ⑤단어 및 문장 생성기술, 이렇게 다섯 가지라고 할 수 있다. 가장 기초적인 기술로 형태소 분석이 이루어지고, 그 결과를 토대로 문장 단위, 문서 단위의 구문분석, 의미분석, 담화 분석이 진행이 된다.
이러한 기술이 최근 비약적으로 발전한 배경엔 ‘딥러닝(deep learning) 기술’이 있다. 딥러닝 기술이란 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술로, 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 기계 학습 알고리즘 중 하나다.
이러한 기계학습 알고리즘으로 학습한 자연어 처리 시스템은 자동번역(Machine Translation), 대화형 사용자 인터페이스(Conversational User Interface), 텍스트 예측(Text Prediction), 감정 분석(Sentiment Analysis), 텍스트 분류(Text Classification), 맞춤법 검사(Spell Check), 문자인식(Speech Recognition)에 다양하게 이용된다.
현재 자연어 처리 기술의 수준은?
2021년에 주목할 기술 중 하나인 '자연어 처리'는 상당히 높은 수준으로 발전했다. 시스템의 한국어 이해 능력을 평가하는 경진대회 코쿼드(KorQuAD)에서 삼성SDS는 위키피디아를 이용해 답을 찾는 경연대회에서 1등을 차지했다. 이보다 더 놀라운 점은 사람보다 더 높은 점수를 받았다는 사실이다. 다시 말해, 자연어 처리 기술의 수준이 사람을 능가하고 있다는 의미이다.
자연어 이해뿐만 아니라 문장 생성에서도 기술 수준이 빠르게 발전하고 있다. 전 세계적으로 인공지능 연구로 유명한 오픈인공지능(Open인공지능)는 2020년 6월에 3세대 지피티(GPT-3)를 공개했다. GPT-3은 3,000억 개의 자료집합으로 구성돼 있으며, 매개변수는 1750억 개에 달한다.
이러한 매개변수 수치는 2019년에 출시된 GPT-2보다 100배 이상 높다. 참고로 GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다.
테크 기업, 자연어 처리 기술에 투자한다
시리를 필두로 2016년 구글의 ‘구글 홈’, 마이크로소프트의 ‘인보크’, 국내기업 KT의 ‘기가지니’, SK텔레콤의 ‘누구’ 등 국내, 외 음성기반 서비스들이 쏟아지고 있다. 음성 서비스 관련 산업은 자연어 처리 기술의 급격한 발전에 따라 꾸준한 성장세를 보인다.
애플은 2020년 상반기에 시리의 자연어 인식기능의 강화를 위해 스타트업 기업 '보이시스(Voysis)'를 인수했다. 시리는 단순히 아이폰, 아이패드 등 iOS 기기에서의 작동 뿐만 아니라 데스크톱 맥은 물론 자동차용 인포테인먼트 시스템인 카플레이에까지 적용되고 있을 정도로 그 영역을 확대하고 있다.
그러나 시리가 단순 명령을 수행하는 음성 인식은 뛰어날지 몰라도 문장을 체계적이면서 자연스럽게 이해하고 검색하는 데에는 미흡한 점이 많았다.
보이시스는 기존에 쇼핑관련된 문구를 처리하는 부분과 관련, 세밀하고 정확한 제품 검색 결과를 도출하도록 도움을 주었다. 애플은 이렇게 구문을 자세하게 나누는 방식으로 음성인식을 하는 프로그램을 기반으로 삼아, 인공지능을 이용한 자체 앱과 카플레이 등에 다양하게 적용할 계획이다.
자연어 처리 분야에 관한 연구와 투자는 계속해서 이루어지고 있다. 한 쪽에서는 자연어 처리 자체 연구가 진행되고 있다면, 다른 한 쪽에서는 이를 응용한 서비스 개발이 한창이다. 멀지 않은 미래에 공상과학 영화처럼 컴퓨터와 자연스럽게 대화할 날이 곧 다가올 것이다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]