CWN(CHANGE WITH NEWS) - 말뭉치(corpus) 연구의 활용

  • 맑음영월30.9℃
  • 흐림영천26.7℃
  • 구름많음산청28.2℃
  • 맑음보령30.8℃
  • 맑음고창30.3℃
  • 구름조금강릉28.6℃
  • 맑음이천29.9℃
  • 흐림제주27.4℃
  • 구름조금대구28.0℃
  • 맑음북춘천30.2℃
  • 구름많음추풍령27.7℃
  • 구름조금장흥29.0℃
  • 맑음부여29.0℃
  • 구름많음서귀포29.9℃
  • 구름조금창원29.1℃
  • 맑음서산29.5℃
  • 맑음영광군30.2℃
  • 구름조금군산29.6℃
  • 구름조금북부산29.4℃
  • 맑음철원30.5℃
  • 구름많음함양군28.4℃
  • 흐림경주시25.6℃
  • 맑음수원29.5℃
  • 구름많음의령군27.9℃
  • 맑음봉화28.5℃
  • 구름조금백령도26.8℃
  • 맑음순천27.2℃
  • 구름많음거제28.4℃
  • 구름많음목포29.0℃
  • 맑음양평29.9℃
  • 맑음강화29.2℃
  • 구름조금부산28.9℃
  • 흐림통영29.5℃
  • 맑음파주29.8℃
  • 맑음고창군30.5℃
  • 맑음문경29.6℃
  • 구름많음구미29.6℃
  • 구름많음진주29.1℃
  • 구름조금보성군30.6℃
  • 맑음전주29.6℃
  • 구름조금보은27.8℃
  • 맑음속초26.4℃
  • 구름조금순창군29.6℃
  • 맑음동해27.3℃
  • 맑음인천30.2℃
  • 구름많음성산28.1℃
  • 구름많음밀양29.3℃
  • 구름조금여수27.9℃
  • 구름조금울릉도25.9℃
  • 구름조금대전29.5℃
  • 구름많음울산25.2℃
  • 맑음서울30.6℃
  • 맑음천안28.8℃
  • 맑음영주30.3℃
  • 맑음인제29.1℃
  • 맑음정읍30.0℃
  • 구름조금남해28.1℃
  • 구름조금북창원30.1℃
  • 구름조금해남29.3℃
  • 구름조금강진군30.1℃
  • 구름조금세종29.6℃
  • 맑음제천28.9℃
  • 구름많음남원28.9℃
  • 구름많음완도31.3℃
  • 구름조금청송군28.7℃
  • 맑음영덕26.9℃
  • 맑음청주30.8℃
  • 맑음충주31.0℃
  • 구름조금고산30.2℃
  • 구름조금금산28.1℃
  • 맑음임실28.3℃
  • 구름많음합천29.2℃
  • 구름조금홍성29.5℃
  • 구름많음포항25.2℃
  • 구름조금장수25.6℃
  • 구름조금고흥30.3℃
  • 맑음춘천30.1℃
  • 구름조금광양시29.1℃
  • 맑음정선군30.3℃
  • 맑음홍천30.3℃
  • 구름많음거창27.2℃
  • 맑음울진28.3℃
  • 구름많음광주27.9℃
  • 맑음태백25.5℃
  • 구름많음양산시30.2℃
  • 맑음대관령23.1℃
  • 맑음동두천30.3℃
  • 구름조금북강릉27.5℃
  • 맑음흑산도30.2℃
  • 구름조금서청주29.7℃
  • 구름많음의성30.0℃
  • 맑음안동30.4℃
  • 구름조금진도군29.7℃
  • 구름조금상주29.8℃
  • 맑음원주30.6℃
  • 맑음부안30.3℃
  • 구름조금김해시30.1℃
  • 2025.09.11 (목)

말뭉치(corpus) 연구의 활용

이수린 / 기사승인 : 2021-03-20 20:32:34
  • -
  • +
  • 인쇄

인공지능 변호사 로스(Ross), 챗봇 엘리자(ELIZA), 구글 번역기. 모두 우리가 모두 한 번 쯤 들어보거나 사용해본 인공지능(AI)이다. 모두 ‘말뭉치 언어학’을 활용한다는 공통점이 있다.

말뭉치란 사람들이 실제로 사용하는 언어 사례를 모아 놓은 자료를 말한다. 말뭉치를 분석하여 언어가 실제로 어떤 양상으로 사용되는지, 사람들의 인식 속에 언어가 어떻게 저장되어 있는지 탐구할 수 있다. 말뭉치 언어학이 AI 개발에도 활용되면서 말뭉치 언어학에 대한 관심이 높아지고 있다.

대표적으로 말뭉치 언어학을 활용하여 만드는 AI 챗봇은 사람들과 대화를 하면 할수록 그 대화 속의 패턴을 찾아내어 해당 패턴에는 어떤 대답을 내놓을지 결정한다. 대화를 많이 하면 할수록 대화 패턴에 대한 정보가 많아지고, 챗봇은 더 다양한 대답을 내놓을 수 있게 된다.

[ELIZA가 패턴을 찾아내는 코드의 예시]

말뭉치 언어학은 일반 언어 데이터와는 달리 사람이 실제로 사용하는 언어를 분석한다는 점에서 일상에서 사람들과 대화하는 AI 연구에 적합하다.

예를 들어, ‘몇 시?’라는 한국어 문장은 주어와 목적어 등 문장을 이루는 구조가 다 생략되어 있고 대화 상황에 따라 단순 물음/불쾌감 표시 등 의미가 달라질 수 있다. 단순히 문법적인 언어만 모아둔 데이터에는 없지만, 말뭉치 데이터는 문법적 언어와 상황 분석 데이터를 지니고 있다. 따라서 AI는 말이 사용되는 상황도 함께 학습할 수 있게 도와준다.

특히, 말뭉치 언어학은 사투리가 심하거나 어순이 자유로운 언어일수록 빛을 발한다. 이렇듯 앞으로 말뭉치 언어학이 AI 개발 분야에서 얼마나 큰 역할을 하게 될지 관심이 쏠리고 있다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue