CWN(CHANGE WITH NEWS) - NLP의 기초 작업 ′단어 임베딩′ 알아보기

  • 맑음홍천-10.4℃
  • 구름많음제주1.8℃
  • 맑음장수-9.1℃
  • 흐림고창군-5.0℃
  • 구름많음진주-4.1℃
  • 맑음영월-8.9℃
  • 구름조금통영-0.6℃
  • 맑음정선군-9.1℃
  • 맑음전주-7.7℃
  • 맑음원주-8.7℃
  • 맑음보은-10.3℃
  • 맑음강릉-4.4℃
  • 맑음동해-3.5℃
  • 맑음영덕-3.8℃
  • 구름많음남해-1.2℃
  • 구름조금여수-2.3℃
  • 구름많음밀양-5.1℃
  • 흐림강진군-3.0℃
  • 맑음태백-11.3℃
  • 맑음이천-8.7℃
  • 구름많음목포-1.7℃
  • 맑음속초-5.2℃
  • 흐림군산-6.7℃
  • 맑음인천-9.3℃
  • 맑음대관령-13.2℃
  • 맑음구미-5.1℃
  • 맑음제천-9.7℃
  • 맑음포항-2.4℃
  • 흐림영광군-4.3℃
  • 구름많음서귀포3.4℃
  • 맑음상주-7.4℃
  • 맑음청송군-7.1℃
  • 흐림남원-6.8℃
  • 흐림함양군-3.8℃
  • 구름많음고산2.3℃
  • 맑음임실-6.8℃
  • 눈홍성-8.4℃
  • 흐림장흥-3.7℃
  • 맑음서청주-9.5℃
  • 맑음창원-1.4℃
  • 눈백령도-6.0℃
  • 맑음경주시-3.3℃
  • 흐림진도군-0.9℃
  • 구름조금산청-3.2℃
  • 흐림철원-16.3℃
  • 맑음부산-0.9℃
  • 구름많음양산시-0.1℃
  • 흐림순천-5.6℃
  • 맑음동두천-12.2℃
  • 구름조금김해시-2.2℃
  • 맑음울진-5.7℃
  • 맑음서산-6.3℃
  • 맑음봉화-7.7℃
  • 맑음세종-8.6℃
  • 맑음문경-7.6℃
  • 맑음수원-8.9℃
  • 흐림정읍-5.7℃
  • 구름많음완도-2.3℃
  • 맑음영주-7.3℃
  • 맑음영천-4.3℃
  • 눈울릉도-2.5℃
  • 맑음대구-3.2℃
  • 맑음인제-12.9℃
  • 맑음대전-8.5℃
  • 맑음춘천-11.3℃
  • 맑음의성-10.0℃
  • 맑음충주-9.8℃
  • 맑음금산-8.1℃
  • 맑음청주-7.2℃
  • 맑음천안-8.1℃
  • 맑음양평-8.1℃
  • 맑음북부산-2.2℃
  • 구름조금합천-5.7℃
  • 맑음안동-6.6℃
  • 구름조금성산0.8℃
  • 맑음순창군-5.8℃
  • 구름많음의령군-8.5℃
  • 맑음부여-8.8℃
  • 맑음광주-5.0℃
  • 맑음북춘천-12.9℃
  • 맑음북강릉-4.8℃
  • 구름많음광양시-2.4℃
  • 구름조금북창원-1.3℃
  • 구름많음보성군-3.3℃
  • 흐림흑산도-0.3℃
  • 맑음강화-11.8℃
  • 구름조금보령-6.0℃
  • 흐림고창-4.9℃
  • 흐림해남-2.6℃
  • 구름조금거창-7.0℃
  • 흐림부안-4.9℃
  • 맑음파주-14.2℃
  • 맑음울산-2.3℃
  • 맑음추풍령-8.5℃
  • 맑음서울-9.4℃
  • 구름많음고흥-3.5℃
  • 2026.01.21 (수)

NLP의 기초 작업 '단어 임베딩' 알아보기

이수린 / 기사승인 : 2021-05-04 15:53:20
  • -
  • +
  • 인쇄

NLP(Natural language processing)는 말 그대로 사람의 언어를 컴퓨터로 처리하는 과정을 말한다. 그런데, 인간의 언어를 처리하기엔 컴퓨터라는 기계의 원리가 너무 단순하다. 따라서 인간의 언어를 컴퓨터가 알아볼 수 있는 형태(주로 벡터, 텐서 형태)로 비꾸어 주는 과정이 필요하다. 여기에서 가장 기초적인 단계가 단어 임베딩(word embedding)이다.

컴퓨터가 단어의 의미를 ‘정량적으로’ 계산할 수 있게 바꿔주는 것
‘고양이’, ‘강아지’, ‘엄마’, ‘아빠’와 같은 단어를 줬을 때, 인간은 ‘고양이’와 ‘강아지’가 의미상으로 가깝고 ‘엄마’, ‘아빠’가 의미상 가깝다는 것을 쉽게 알 수 있을 것이다. 컴퓨터가 비슷한 일을 수행하기 위해서는 각 단어의 의미를 수치로 표현해야 한다. 따라서 단어 임베딩을 활용해, 단어의 의미를 벡터 공간에 나타낸다.

단어 임베딩의 대표적인 방식으로는 Word2Vec이 있다. 이 모델은 데이터에서 대상 단어와 문맥 단어를 추출해, 한 단어가 주로 함께 사용되는 표현(문맥)을 분석하여 벡터로 나타낸다.

만약, ‘철수네 엄마가 철수에게 조심하라고 말했어요’와 같은 문장을 분석한다면, ‘엄마’라는 단어는 ‘철수’라는 이름 등과 같이 많이 사용되는 것을 볼 수 있다. 벡터 공간에서 개별 단어는 문맥 단어와 가깝고, 문맥이 아닌 단어와는 멀게 표상된다.

이렇게 표상된 벡터를 통해 의미 연산을 수행할 수도 있다. 예를 들어, Word2Vec 한국어 모델에서 ‘아빠’-‘엄마’ ’할아버지’의 연산을 수행하면, ‘할머니’라는 단어를 출력해준다. 단어 임베딩은 이와 같은 과정을 거쳐 사람의 언어를 컴퓨터가 연산할 수 있도록 도와준다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue