언어 데이터를 이용하여 각종 분야의 인공지능(AI)과 알고리즘을 개발하는 일이 늘어나 자연어 처리 기술이 중요한 문제로 인식되기 시작한 지는 꽤 오래된 이야기다. 그런데 한국어 데이터를 한번이라도 다뤄본 사람이라면 프로그램 상에서 한글이 ‘깨져서’ 보이는 사례를 많이 보았을 것이다. 왜 한국어는 영어와 달리 컴퓨터 언어로 다루기 어려운 것일까?
한번쯤은 '한글이 자음과 모음의 조화로 이루어져 자판으로 구성하기 쉽다', '디지털 환경에 최적화된 글자이다', 라는 말을 들어봤을 것이다. 그런데 아이러니하게도 이러한 점 때문에 한국어 정보 처리가 어려워진다. 한국어는 영어와 달리 한 글자로 인식하는 음절마다 정보의 길이가 다르다.
가령 영어 화자는 알파벳 한 개를 모두 동일하게 ‘한 글자’로 인식하지만, 한국어 화자는 자음 한 개와 모음 한 개로 이루어진 ‘가’나 자음 두 개와 모음 한 개로 이루어진 ‘황’이나 모두 한 글자로 인식해야 한다. 그래서 글자 당 일정한 바이트(byte)를 할당하기 어려운 문제가 있다.
이 때문에 처음에 한글 코드를 구현할 때 N 바이트 방식, 3 바이트 방식, 2 바이트 조합형 방식, 2 바이트 완성형 방식 등 다양한 코드 구현 방식이 시도되었고 아직까지도 하나의 방식으로 완전히 통일되지 않은 상태이다. 이런 이유로 작업 환경이 달라지면 한글이 자주 깨지는 현상이 발생하는 것이다.

한국어 정보 처리의 어려움은 한글이라는 표기 방식에만 기인한 것은 아니다. 한국어 문장은 형태소 단위 구별이 매우 어렵다. ‘살다’, ‘산다’, ‘살았다’ 등 실질적인 의미를 나타내는 부분과 문법적인 의미를 나타내는 부분이 무한한 가능성으로 결합할 수 있고 그 구분도 명확하지 않다. 심지어 문법적인 역할을 하는 ‘조사’는 재량대로 생략될 수 있어, 단어의 역할을 알기 위해 문장 전체 혹은 상황 전체를 분석해야 하는 때도 많다.
이 외에도 인사말이 ‘Hi’’와 ‘Bye’로 명확히 구분되는 영어와 달리 한국어의 ‘안녕’은 표기 정보 외의 여러 가지 정보를 종합해야 의미를 파악할 수 있는 등 다양한 어려움이 존재한다. 이러한 이유로 인해 한국어 정보 처리에 대한 연구가 지속적으로 이루어지는 중이다.
국내에서 이루어지고 있는 연구 중에는 학술 대회 형식이 많은데, 대표적으로 언어공학연구회에서 주최하는 ‘한글 및 한국어 정보처리 학술대회(HCLT)’ 가 있다. 이 대회는 다양한 분야의 사람들이 한국어 정보 처리를 연구하여 논문을 발표하는 형식으로 진행된다. 이 외에도 2018-2019년에 진행된 “네이버, 창원대가 함께하는 NLP 챌린지(NLP Challenge)” 등 모두에게 열려 있는 한국어 정보 처리 학술 대회가 꾸준히 개최하며 한국어 정보 처리 연구가 활발히 진행 중이다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]