CWN(CHANGE WITH NEWS) - 한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

  • 맑음속초18.7℃
  • 맑음천안17.9℃
  • 흐림거창18.8℃
  • 흐림보은18.8℃
  • 흐림경주시20.4℃
  • 맑음백령도20.3℃
  • 구름많음서청주18.0℃
  • 흐림봉화17.6℃
  • 흐림임실19.5℃
  • 비울릉도21.5℃
  • 흐림의성19.4℃
  • 흐림광주19.9℃
  • 흐림영주18.4℃
  • 흐림영덕18.6℃
  • 흐림청송군18.5℃
  • 흐림북창원21.6℃
  • 비전주21.0℃
  • 구름많음남해20.7℃
  • 흐림문경18.8℃
  • 맑음북강릉19.0℃
  • 흐림금산20.2℃
  • 흐림밀양21.1℃
  • 구름조금보령20.8℃
  • 흐림함양군19.3℃
  • 맑음동두천16.6℃
  • 맑음원주19.9℃
  • 구름많음고창군20.2℃
  • 비대구19.6℃
  • 구름조금완도21.8℃
  • 구름조금강진군21.6℃
  • 흐림영천19.4℃
  • 맑음군산20.6℃
  • 맑음홍성19.6℃
  • 맑음수원19.0℃
  • 흐림구미19.6℃
  • 맑음서울20.5℃
  • 흐림통영21.8℃
  • 구름많음제주25.2℃
  • 맑음대관령9.5℃
  • 비포항20.6℃
  • 구름많음영광군20.5℃
  • 맑음춘천17.2℃
  • 맑음서산19.0℃
  • 구름조금충주18.0℃
  • 천둥번개서귀포25.8℃
  • 흐림장수18.4℃
  • 구름많음순창군19.8℃
  • 맑음강릉19.4℃
  • 흐림순천19.7℃
  • 구름많음장흥21.2℃
  • 구름조금영월18.0℃
  • 구름많음진도군21.4℃
  • 구름많음보성군21.2℃
  • 구름조금동해19.9℃
  • 구름많음고산24.8℃
  • 맑음인제13.7℃
  • 흐림진주20.0℃
  • 구름많음세종19.7℃
  • 맑음이천18.7℃
  • 흐림남원19.7℃
  • 흐림광양시21.6℃
  • 흐림부산22.8℃
  • 비목포20.7℃
  • 흐림태백16.4℃
  • 맑음홍천16.6℃
  • 맑음해남21.3℃
  • 흐림부안20.3℃
  • 흐림의령군19.2℃
  • 맑음강화18.2℃
  • 흐림성산24.9℃
  • 구름많음북부산22.7℃
  • 흐림거제21.9℃
  • 맑음파주17.2℃
  • 구름조금부여19.7℃
  • 구름많음창원21.4℃
  • 구름많음여수21.5℃
  • 구름조금흑산도22.0℃
  • 흐림상주18.7℃
  • 흐림울산20.1℃
  • 흐림정읍20.6℃
  • 구름많음양산시22.6℃
  • 구름많음고창20.6℃
  • 맑음양평18.9℃
  • 흐림울진19.5℃
  • 흐림김해시21.0℃
  • 구름많음대전20.1℃
  • 구름조금제천17.0℃
  • 맑음인천21.8℃
  • 흐림안동18.7℃
  • 구름조금청주21.1℃
  • 맑음북춘천16.0℃
  • 구름많음고흥21.5℃
  • 흐림추풍령18.3℃
  • 맑음철원15.0℃
  • 흐림합천19.8℃
  • 맑음정선군15.5℃
  • 흐림산청19.1℃
  • 2025.09.10 (수)

한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

이수린 / 기사승인 : 2021-04-04 15:54:23
  • -
  • +
  • 인쇄

언어 데이터를 이용하여 각종 분야의 인공지능(AI)과 알고리즘을 개발하는 일이 늘어나 자연어 처리 기술이 중요한 문제로 인식되기 시작한 지는 꽤 오래된 이야기다. 그런데 한국어 데이터를 한번이라도 다뤄본 사람이라면 프로그램 상에서 한글이 ‘깨져서’ 보이는 사례를 많이 보았을 것이다. 왜 한국어는 영어와 달리 컴퓨터 언어로 다루기 어려운 것일까?

한번쯤은 '한글이 자음과 모음의 조화로 이루어져 자판으로 구성하기 쉽다', '디지털 환경에 최적화된 글자이다', 라는 말을 들어봤을 것이다. 그런데 아이러니하게도 이러한 점 때문에 한국어 정보 처리가 어려워진다. 한국어는 영어와 달리 한 글자로 인식하는 음절마다 정보의 길이가 다르다.

가령 영어 화자는 알파벳 한 개를 모두 동일하게 ‘한 글자’로 인식하지만, 한국어 화자는 자음 한 개와 모음 한 개로 이루어진 ‘가’나 자음 두 개와 모음 한 개로 이루어진 ‘황’이나 모두 한 글자로 인식해야 한다. 그래서 글자 당 일정한 바이트(byte)를 할당하기 어려운 문제가 있다.

이 때문에 처음에 한글 코드를 구현할 때 N 바이트 방식, 3 바이트 방식, 2 바이트 조합형 방식, 2 바이트 완성형 방식 등 다양한 코드 구현 방식이 시도되었고 아직까지도 하나의 방식으로 완전히 통일되지 않은 상태이다. 이런 이유로 작업 환경이 달라지면 한글이 자주 깨지는 현상이 발생하는 것이다.

[https://m.blog.naver.com/bada744/221811726757 <네이버 블로그>]
한글 깨짐 현상 예시

한국어 정보 처리의 어려움은 한글이라는 표기 방식에만 기인한 것은 아니다. 한국어 문장은 형태소 단위 구별이 매우 어렵다. ‘살다’, ‘산다’, ‘살았다’ 등 실질적인 의미를 나타내는 부분과 문법적인 의미를 나타내는 부분이 무한한 가능성으로 결합할 수 있고 그 구분도 명확하지 않다. 심지어 문법적인 역할을 하는 ‘조사’는 재량대로 생략될 수 있어, 단어의 역할을 알기 위해 문장 전체 혹은 상황 전체를 분석해야 하는 때도 많다.

이 외에도 인사말이 ‘Hi’’와 ‘Bye’로 명확히 구분되는 영어와 달리 한국어의 ‘안녕’은 표기 정보 외의 여러 가지 정보를 종합해야 의미를 파악할 수 있는 등 다양한 어려움이 존재한다. 이러한 이유로 인해 한국어 정보 처리에 대한 연구가 지속적으로 이루어지는 중이다.

국내에서 이루어지고 있는 연구 중에는 학술 대회 형식이 많은데, 대표적으로 언어공학연구회에서 주최하는 ‘한글 및 한국어 정보처리 학술대회(HCLT)’ 가 있다. 이 대회는 다양한 분야의 사람들이 한국어 정보 처리를 연구하여 논문을 발표하는 형식으로 진행된다. 이 외에도 2018-2019년에 진행된 “네이버, 창원대가 함께하는 NLP 챌린지(NLP Challenge)” 등 모두에게 열려 있는 한국어 정보 처리 학술 대회가 꾸준히 개최하며 한국어 정보 처리 연구가 활발히 진행 중이다.

[언어공학연구회 <한글 및 한국어 정보처리 학술대회>]

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue