CWN(CHANGE WITH NEWS) - [IT용어 알아보기] 데이터 랭글링이란?

  • 구름조금완도-3.3℃
  • 맑음구미-4.3℃
  • 맑음북강릉-4.1℃
  • 맑음북창원-0.8℃
  • 맑음부산-0.9℃
  • 맑음태백-10.2℃
  • 맑음광양시-3.7℃
  • 구름많음부안-4.0℃
  • 흐림고창-4.5℃
  • 흐림고산1.5℃
  • 맑음강진군-3.8℃
  • 맑음인제-7.5℃
  • 맑음서산-6.4℃
  • 흐림영광군-4.5℃
  • 구름많음진도군-2.5℃
  • 맑음안동-5.2℃
  • 구름많음순창군-5.7℃
  • 맑음충주-7.2℃
  • 맑음고흥-3.9℃
  • 맑음임실-6.1℃
  • 맑음홍천-6.8℃
  • 맑음부여-5.5℃
  • 맑음원주-7.2℃
  • 맑음영덕-3.6℃
  • 맑음함양군-4.2℃
  • 맑음장수-7.4℃
  • 맑음금산-5.3℃
  • 눈울릉도-3.0℃
  • 맑음서울-7.3℃
  • 맑음동해-3.3℃
  • 맑음청송군-5.8℃
  • 맑음김해시-2.1℃
  • 맑음양산시-0.2℃
  • 맑음서청주-7.0℃
  • 맑음남해-1.6℃
  • 맑음대구-3.0℃
  • 맑음포항-2.1℃
  • 맑음의성-4.0℃
  • 맑음홍성-6.5℃
  • 맑음상주-6.0℃
  • 맑음울산-2.8℃
  • 맑음대전-6.0℃
  • 맑음합천-1.5℃
  • 맑음북부산-0.9℃
  • 맑음동두천-8.9℃
  • 구름많음해남-3.5℃
  • 맑음진주-2.0℃
  • 구름많음흑산도-1.2℃
  • 맑음군산-5.7℃
  • 맑음추풍령-6.7℃
  • 맑음남원-5.7℃
  • 맑음순천-6.2℃
  • 맑음인천-7.8℃
  • 맑음여수-3.1℃
  • 맑음강화-8.5℃
  • 맑음산청-4.0℃
  • 구름조금서귀포1.7℃
  • 맑음속초-4.7℃
  • 맑음제천-7.4℃
  • 맑음전주-5.5℃
  • 맑음경주시-3.1℃
  • 맑음이천-6.9℃
  • 맑음장흥-4.1℃
  • 맑음영주-6.3℃
  • 맑음거창-4.9℃
  • 맑음정선군-7.6℃
  • 맑음북춘천-8.2℃
  • 눈광주-4.5℃
  • 맑음천안-6.9℃
  • 맑음파주-9.4℃
  • 맑음영천-3.9℃
  • 흐림성산0.1℃
  • 눈제주1.2℃
  • 맑음양평-6.5℃
  • 맑음영월-7.1℃
  • 맑음춘천-7.1℃
  • 맑음문경-6.6℃
  • 맑음대관령-11.7℃
  • 맑음강릉-3.5℃
  • 맑음세종-6.3℃
  • 맑음통영-0.7℃
  • 구름많음고창군-5.1℃
  • 맑음봉화-7.4℃
  • 구름많음보령-5.8℃
  • 맑음수원-7.2℃
  • 맑음보은-7.1℃
  • 맑음철원-9.7℃
  • 맑음울진-2.8℃
  • 눈백령도-7.4℃
  • 구름많음목포-2.7℃
  • 맑음청주-6.5℃
  • 맑음보성군-3.8℃
  • 맑음의령군-3.2℃
  • 맑음밀양-2.1℃
  • 맑음창원-0.7℃
  • 구름많음정읍-5.4℃
  • 2026.01.21 (수)

[IT용어 알아보기] 데이터 랭글링이란?

최지홍 / 기사승인 : 2021-03-04 13:43:00
  • -
  • +
  • 인쇄

Pixabay

인공지능 및 빅데이터 시대에 데이터를 가공하는 것은 매우 중요한 일이다. 인공지능을 학습할 때, 데이터가 필요하다. 이때, 학습에 적합하지 않은 데이터가 섞여 있다면, 당연히 학습의 결과가 좋지 못할 수밖에 없기 때문이다. 양질의 데이터를 얻기 위해 ‘데이터 랭글링(Data Wrangling)’ 과정이 필요하다.

데이터 랭글링이란, 분석과 같은 다양한 다운스트림 목적에 적합하고 가치 있게 만들기 위해 하나의 원시 데이터(raw data) 양식에서 다른 형식으로 데이터를 변환하고 매핑하는 과정이다. 데이터 랭글링은 품질과 유용한 데이터를 보장하는 것을 목표로 한다. 데이터 분석가는 주로 데이터의 실제 분석과 비교하여 데이터 랭글링 과정에 대부분의 시간을 소비한다.

데이터 랭글링은 '발견', '구조화', '청소', '강화', '검증', '출판'이라는 6가지 단계로 나누어진다. 이러한 단계는 분석에 사용할 수 있는 깨끗하고 유용한 데이터 세트를 산출하기 위한 반복적인 과정이다. 이 과정은 분석가가 필요한 정보를 읽을 수 없는 많은 데이터 집합에서 얻을 수 있게 해준다.

그런데 위의 내용을 읽다 보면 다음과 같은 의문이 들 것이다. “데이터 마이닝과 데이터 랭글링은 같은 용어인가?”

데이터 마이닝의 정의를 보면, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정”이므로 충분히 개념을 헷갈릴 수 있다.

데이터 랭글링과 데이터 마이닝의 관계는 다음과 같다. 데이터 마이닝 프로세스에서는 대규모 데이터 세트 내에서 패턴을 찾는데, 여기서 데이터 랭글링은 해당 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환하는 역할을 한다.

데이터 랭글링은 전체 집합에 도움이 되지 않거나 제대로 형식이 지정되지 않은 데이터를 제거하여 데이터 마이닝에 도움이 될 수 있으며, 이는 전체 데이터 마이닝 프로세스에 대해 더 나은 결과를 제공한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue