CWN(CHANGE WITH NEWS) - 시리와 파파고가 사용하는 ′자연어 처리 기술′, 그 정확한 개념은?

  • 흐림대전21.6℃
  • 흐림남원23.4℃
  • 흐림성산22.6℃
  • 흐림여수23.7℃
  • 흐림강화19.8℃
  • 구름많음고산24.1℃
  • 흐림정읍21.3℃
  • 흐림이천18.8℃
  • 흐림산청20.0℃
  • 흐림봉화17.4℃
  • 흐림정선군15.8℃
  • 흐림보은20.2℃
  • 비제주23.5℃
  • 흐림순천19.2℃
  • 흐림순창군20.7℃
  • 흐림대구21.6℃
  • 흐림강릉21.0℃
  • 흐림충주20.2℃
  • 흐림상주20.2℃
  • 흐림세종21.4℃
  • 흐림포항23.9℃
  • 흐림서청주21.0℃
  • 흐림해남25.0℃
  • 흐림태백15.8℃
  • 흐림합천20.9℃
  • 흐림의성18.7℃
  • 흐림문경18.6℃
  • 흐림양평19.9℃
  • 흐림춘천18.7℃
  • 구름많음김해시23.6℃
  • 흐림영월16.8℃
  • 흐림광양시23.8℃
  • 흐림원주19.9℃
  • 흐림천안20.5℃
  • 흐림의령군20.0℃
  • 흐림울진21.3℃
  • 흐림부안21.4℃
  • 구름많음북부산24.9℃
  • 흐림구미20.6℃
  • 흐림남해22.4℃
  • 흐림동해20.2℃
  • 흐림북춘천17.9℃
  • 흐림보령22.9℃
  • 흐림청주22.8℃
  • 흐림영천20.6℃
  • 흐림철원17.6℃
  • 흐림금산20.2℃
  • 흐림광주22.6℃
  • 흐림동두천18.7℃
  • 흐림고창21.6℃
  • 흐림거창19.4℃
  • 흐림안동19.1℃
  • 흐림군산22.2℃
  • 흐림장흥24.5℃
  • 흐림영광군22.1℃
  • 흐림영덕22.0℃
  • 흐림임실19.8℃
  • 흐림인천23.6℃
  • 흐림부여21.5℃
  • 흐림서울23.1℃
  • 흐림창원22.7℃
  • 흐림북강릉20.8℃
  • 흐림진도군24.0℃
  • 구름많음거제23.5℃
  • 흐림수원22.1℃
  • 흐림파주18.5℃
  • 흐림목포23.6℃
  • 흐림제천18.6℃
  • 흐림보성군23.3℃
  • 흐림홍성22.0℃
  • 흐림속초20.1℃
  • 흐림흑산도23.6℃
  • 흐림고창군22.1℃
  • 흐림전주22.1℃
  • 흐림인제16.5℃
  • 구름많음백령도22.3℃
  • 흐림완도23.4℃
  • 흐림양산시25.0℃
  • 흐림서귀포23.8℃
  • 구름많음추풍령19.1℃
  • 구름많음통영23.4℃
  • 흐림서산22.1℃
  • 구름많음고흥24.2℃
  • 구름많음북창원23.4℃
  • 흐림대관령16.5℃
  • 흐림밀양24.5℃
  • 흐림함양군20.0℃
  • 흐림경주시22.7℃
  • 구름많음부산24.4℃
  • 흐림영주19.0℃
  • 구름많음울릉도23.1℃
  • 흐림울산23.6℃
  • 흐림청송군18.7℃
  • 흐림장수18.1℃
  • 흐림홍천17.4℃
  • 흐림진주20.6℃
  • 흐림강진군23.7℃
  • 2025.09.12 (금)

시리와 파파고가 사용하는 '자연어 처리 기술', 그 정확한 개념은?

전동현 / 기사승인 : 2021-02-05 18:19:15
  • -
  • +
  • 인쇄

“시리, 어제 테슬라 주가 좀 보여줘”, “네, 어제 테슬라 주가 정보입니다.”
“시리, 오늘 오후에 눈 와?”, “지금부터 오후 7시까지 눈 소식은 없네요”

오늘도 평소와 같이 시리와의 대화로 아침을 시작한다. 날씨를 묻고, 알람을 맞추고, 주식 정보를 보여달라는 나의 말을 인식하고 그대로 수행한다. 가끔 발음이 부정확할 때를 빼고는 원하는 결과를 대부분 보여준다. 이 음성인식 시스템은 남자, 여자, 노인, 어린아이들의 목소리도 모두 인식하여 동작을 수행한다. 시리뿐만이 아니다.

네이버의 파파고는 자연어 처리 기술로 실시간 번역 서비스를 지원한다. 중국인이 길을 물어보았을 때, 답변자가 한국어로 대답하더라도 해당 답변을 중국어로 변환해 길을 알려줄 수 있다.

구글홈은 집주인의 음성을 알아들어 지시를 수행하는 가정용 스마트 스피커로 조명, TV, 에어컨 등을 컨트롤 할 수 있는 서비스를 제공한다. KT의 ‘기가지니’, 카카오의 ‘카카오미니’ 등의 인공지능 스피커는 음성인식 시스템을 기반으로 사람의 말을 인식하여 음악을 틀어주거나 가까운 사람에게 메시지를 보내주기도 한다.

자연어 처리는 무엇일까?
앞서 말한 모든 사례가 자연어 처리(NLP, Natural Language Processing) 기술을 이용한 것이다. 자연어 처리는 인간의 언어인 자연어를 컴퓨터를 이용해 처리하기 위한 기술 분야이다. 인간의 언어를 이해하는 머신러닝 기술을 적용해 각종 정보처리에 이용함으로써 보다 편리하고 빠르게 정보를 획득한다.

자연어 처리는 단순 정보검색이나 질의응답 시스템뿐만 아니라 기계로 번역하거나 자동 통역을 하고 문서 작성, 요약 분류, 철자 오류를 찾아내 수정하는 등 언어가 사용되는 많은 영역에서 응용되고 있다. 즉 자연어 처리는 한 마디로, 컴퓨터가 인간의 언어를 이해하는 것을 목표로 하여 동작한다.

자연어 처리의 작동 원리
음성인식기는 학습에 필요한 여러 음성신호의 특성을 데이터로 추출한다. 이때 음성신호의 억양, 목소리 크기 등을 숫자 형태의 데이터로 추출한 것을 특징 벡터라 한다. 음성인식기는 특징 벡터를 활용해 음성신호의 의미를 판가름할 기준을 생성한다. 이후 음성인식기는 입력된 음성신호의 패턴을 분석하고, 특징 벡터를 활용해 만들어진 기준과 비교해 가장 유사도가 높은 값을 최종 결과로 도출해낸다. 이러한 결괏값으로 시스템은 자연어 처리를 하기 시작한다.

자연어 처리의 핵심 기술은 ①형태소 분석기술(Morphological Analysis), ②구문분석 기술(Syntax Analysis) , ③의미분석 기술(Sementic Analysis), ④담화 분석 기술, ⑤단어 및 문장 생성기술, 이렇게 다섯 가지라고 할 수 있다. 가장 기초적인 기술로 형태소 분석이 이루어지고, 그 결과를 토대로 문장 단위, 문서 단위의 구문분석, 의미분석, 담화 분석이 진행이 된다.

이러한 기술이 최근 비약적으로 발전한 배경엔 ‘딥러닝(deep learning) 기술’이 있다. 딥러닝 기술이란 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술로, 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 기계 학습 알고리즘 중 하나다.

이러한 기계학습 알고리즘으로 학습한 자연어 처리 시스템은 자동번역(Machine Translation), 대화형 사용자 인터페이스(Conversational User Interface), 텍스트 예측(Text Prediction), 감정 분석(Sentiment Analysis), 텍스트 분류(Text Classification), 맞춤법 검사(Spell Check), 문자인식(Speech Recognition)에 다양하게 이용된다.

현재 자연어 처리 기술의 수준은?

2021년에 주목할 기술 중 하나인 '자연어 처리'는 상당히 높은 수준으로 발전했다. 시스템의 한국어 이해 능력을 평가하는 경진대회 코쿼드(KorQuAD)에서 삼성SDS는 위키피디아를 이용해 답을 찾는 경연대회에서 1등을 차지했다. 이보다 더 놀라운 점은 사람보다 더 높은 점수를 받았다는 사실이다. 다시 말해, 자연어 처리 기술의 수준이 사람을 능가하고 있다는 의미이다.

자연어 이해뿐만 아니라 문장 생성에서도 기술 수준이 빠르게 발전하고 있다. 전 세계적으로 인공지능 연구로 유명한 오픈인공지능(Open인공지능)는 2020년 6월에 3세대 지피티(GPT-3)를 공개했다. GPT-3은 3,000억 개의 자료집합으로 구성돼 있으며, 매개변수는 1750억 개에 달한다.

이러한 매개변수 수치는 2019년에 출시된 GPT-2보다 100배 이상 높다. 참고로 GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다.

테크 기업, 자연어 처리 기술에 투자한다
시리를 필두로 2016년 구글의 ‘구글 홈’, 마이크로소프트의 ‘인보크’, 국내기업 KT의 ‘기가지니’, SK텔레콤의 ‘누구’ 등 국내, 외 음성기반 서비스들이 쏟아지고 있다. 음성 서비스 관련 산업은 자연어 처리 기술의 급격한 발전에 따라 꾸준한 성장세를 보인다.

애플은 2020년 상반기에 시리의 자연어 인식기능의 강화를 위해 스타트업 기업 '보이시스(Voysis)'를 인수했다. 시리는 단순히 아이폰, 아이패드 등 iOS 기기에서의 작동 뿐만 아니라 데스크톱 맥은 물론 자동차용 인포테인먼트 시스템인 카플레이에까지 적용되고 있을 정도로 그 영역을 확대하고 있다.

그러나 시리가 단순 명령을 수행하는 음성 인식은 뛰어날지 몰라도 문장을 체계적이면서 자연스럽게 이해하고 검색하는 데에는 미흡한 점이 많았다.

보이시스는 기존에 쇼핑관련된 문구를 처리하는 부분과 관련, 세밀하고 정확한 제품 검색 결과를 도출하도록 도움을 주었다. 애플은 이렇게 구문을 자세하게 나누는 방식으로 음성인식을 하는 프로그램을 기반으로 삼아, 인공지능을 이용한 자체 앱과 카플레이 등에 다양하게 적용할 계획이다.

자연어 처리 분야에 관한 연구와 투자는 계속해서 이루어지고 있다. 한 쪽에서는 자연어 처리 자체 연구가 진행되고 있다면, 다른 한 쪽에서는 이를 응용한 서비스 개발이 한창이다. 멀지 않은 미래에 공상과학 영화처럼 컴퓨터와 자연스럽게 대화할 날이 곧 다가올 것이다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue