한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?: 이수린 / 기사승인 : 2021-04-04 15:54:23

언어 데이터를 이용하여 각종 분야의 인공지능(AI)과 알고리즘을 개발하는 일이 늘어나 자연어 처리 기술이 중요한 문제로 인식되기 시작한 지는 꽤 오래된 이야기다. 그런데 한국어 데이터를 한번이라도 다뤄본 사람이라면 프로그램 상에서 한글이 ‘깨져서’ 보이는 사례를 많이 보았을 것이다. 왜 한국어는 영어와 달리 컴퓨터 언어로 다루기 어려운 것일까?

한번쯤은 '한글이 자음과 모음의 조화로 이루어져 자판으로 구성하기 쉽다', '디지털 환경에 최적화된 글자이다', 라는 말을 들어봤을 것이다. 그런데 아이러니하게도 이러한 점 때문에 한국어 정보 처리가 어려워진다. 한국어는 영어와 달리 한 글자로 인식하는 음절마다 정보의 길이가 다르다.

가령 영어 화자는 알파벳 한 개를 모두 동일하게 ‘한 글자’로 인식하지만, 한국어 화자는 자음 한 개와 모음 한 개로 이루어진 ‘가’나 자음 두 개와 모음 한 개로 이루어진 ‘황’이나 모두 한 글자로 인식해야 한다. 그래서 글자 당 일정한 바이트(byte)를 할당하기 어려운 문제가 있다.

이 때문에 처음에 한글 코드를 구현할 때 N 바이트 방식, 3 바이트 방식, 2 바이트 조합형 방식, 2 바이트 완성형 방식 등 다양한 코드 구현 방식이 시도되었고 아직까지도 하나의 방식으로 완전히 통일되지 않은 상태이다. 이런 이유로 작업 환경이 달라지면 한글이 자주 깨지는 현상이 발생하는 것이다.

[https://m.blog.naver.com/bada744/221811726757 <네이버 블로그>]

한글 깨짐 현상 예시

한국어 정보 처리의 어려움은 한글이라는 표기 방식에만 기인한 것은 아니다. 한국어 문장은 형태소 단위 구별이 매우 어렵다. ‘살다’, ‘산다’, ‘살았다’ 등 실질적인 의미를 나타내는 부분과 문법적인 의미를 나타내는 부분이 무한한 가능성으로 결합할 수 있고 그 구분도 명확하지 않다. 심지어 문법적인 역할을 하는 ‘조사’는 재량대로 생략될 수 있어, 단어의 역할을 알기 위해 문장 전체 혹은 상황 전체를 분석해야 하는 때도 많다.

이 외에도 인사말이 ‘Hi’’와 ‘Bye’로 명확히 구분되는 영어와 달리 한국어의 ‘안녕’은 표기 정보 외의 여러 가지 정보를 종합해야 의미를 파악할 수 있는 등 다양한 어려움이 존재한다. 이러한 이유로 인해 한국어 정보 처리에 대한 연구가 지속적으로 이루어지는 중이다.

국내에서 이루어지고 있는 연구 중에는 학술 대회 형식이 많은데, 대표적으로 언어공학연구회에서 주최하는 ‘한글 및 한국어 정보처리 학술대회(HCLT)’ 가 있다. 이 대회는 다양한 분야의 사람들이 한국어 정보 처리를 연구하여 논문을 발표하는 형식으로 진행된다. 이 외에도 2018-2019년에 진행된 “네이버, 창원대가 함께하는 NLP 챌린지(NLP Challenge)” 등 모두에게 열려 있는 한국어 정보 처리 학술 대회가 꾸준히 개최하며 한국어 정보 처리 연구가 활발히 진행 중이다.