CWN(CHANGE WITH NEWS) - [IT용어 알아보기] 데이터 랭글링이란?

  • 구름조금북부산27.2℃
  • 구름조금고창29.7℃
  • 맑음서산29.9℃
  • 구름조금의령군26.6℃
  • 맑음안동28.7℃
  • 비제주27.4℃
  • 구름조금백령도26.0℃
  • 구름조금고흥29.9℃
  • 맑음금산28.6℃
  • 구름조금울산24.9℃
  • 맑음천안29.6℃
  • 맑음정선군27.4℃
  • 맑음파주29.4℃
  • 흐림포항24.9℃
  • 구름조금상주29.2℃
  • 구름많음여수28.0℃
  • 맑음인제26.9℃
  • 구름조금완도30.7℃
  • 맑음인천30.9℃
  • 맑음문경29.0℃
  • 구름많음남해28.2℃
  • 맑음보령30.0℃
  • 구름조금김해시26.3℃
  • 맑음서청주29.8℃
  • 구름조금산청26.9℃
  • 맑음제천28.5℃
  • 맑음이천30.9℃
  • 구름조금대구26.6℃
  • 맑음봉화27.5℃
  • 구름많음흑산도26.8℃
  • 맑음임실27.8℃
  • 맑음동두천29.2℃
  • 구름조금추풍령27.0℃
  • 구름조금강진군30.2℃
  • 구름조금북창원28.9℃
  • 구름조금부안30.2℃
  • 맑음속초26.1℃
  • 구름조금창원27.7℃
  • 맑음장흥28.1℃
  • 맑음양평30.7℃
  • 구름조금밀양26.7℃
  • 구름조금영광군29.0℃
  • 맑음세종29.1℃
  • 구름조금전주29.6℃
  • 구름조금부산28.2℃
  • 구름조금거제27.4℃
  • 구름많음경주시24.0℃
  • 맑음영월28.5℃
  • 구름많음광양시28.7℃
  • 맑음충주31.3℃
  • 맑음순천28.1℃
  • 맑음남원28.4℃
  • 맑음보성군29.3℃
  • 구름조금진도군29.1℃
  • 구름많음성산27.6℃
  • 맑음구미28.9℃
  • 맑음강화28.6℃
  • 맑음서울31.2℃
  • 구름조금홍성29.6℃
  • 구름많음서귀포28.9℃
  • 맑음북춘천30.4℃
  • 맑음원주31.3℃
  • 맑음춘천30.1℃
  • 맑음해남28.9℃
  • 맑음합천27.6℃
  • 구름조금군산29.3℃
  • 맑음정읍29.6℃
  • 맑음대관령21.2℃
  • 맑음의성28.6℃
  • 맑음장수26.6℃
  • 구름조금고창군29.0℃
  • 맑음부여29.4℃
  • 구름많음목포28.6℃
  • 구름많음통영29.0℃
  • 구름많음진주28.1℃
  • 맑음보은28.4℃
  • 맑음울릉도24.4℃
  • 맑음태백22.6℃
  • 맑음청주31.5℃
  • 맑음고산28.8℃
  • 맑음청송군26.4℃
  • 맑음영덕24.6℃
  • 구름많음거창27.1℃
  • 구름조금양산시27.2℃
  • 맑음강릉26.5℃
  • 구름조금대전28.8℃
  • 맑음홍천30.2℃
  • 맑음철원30.0℃
  • 구름조금영천25.3℃
  • 맑음영주29.5℃
  • 구름많음광주27.6℃
  • 구름조금북강릉26.1℃
  • 맑음동해26.1℃
  • 맑음순창군29.7℃
  • 맑음수원29.9℃
  • 맑음울진25.7℃
  • 구름조금함양군27.6℃
  • 2025.09.11 (목)

[IT용어 알아보기] 데이터 랭글링이란?

최지홍 / 기사승인 : 2021-03-04 13:43:00
  • -
  • +
  • 인쇄

Pixabay

인공지능 및 빅데이터 시대에 데이터를 가공하는 것은 매우 중요한 일이다. 인공지능을 학습할 때, 데이터가 필요하다. 이때, 학습에 적합하지 않은 데이터가 섞여 있다면, 당연히 학습의 결과가 좋지 못할 수밖에 없기 때문이다. 양질의 데이터를 얻기 위해 ‘데이터 랭글링(Data Wrangling)’ 과정이 필요하다.

데이터 랭글링이란, 분석과 같은 다양한 다운스트림 목적에 적합하고 가치 있게 만들기 위해 하나의 원시 데이터(raw data) 양식에서 다른 형식으로 데이터를 변환하고 매핑하는 과정이다. 데이터 랭글링은 품질과 유용한 데이터를 보장하는 것을 목표로 한다. 데이터 분석가는 주로 데이터의 실제 분석과 비교하여 데이터 랭글링 과정에 대부분의 시간을 소비한다.

데이터 랭글링은 '발견', '구조화', '청소', '강화', '검증', '출판'이라는 6가지 단계로 나누어진다. 이러한 단계는 분석에 사용할 수 있는 깨끗하고 유용한 데이터 세트를 산출하기 위한 반복적인 과정이다. 이 과정은 분석가가 필요한 정보를 읽을 수 없는 많은 데이터 집합에서 얻을 수 있게 해준다.

그런데 위의 내용을 읽다 보면 다음과 같은 의문이 들 것이다. “데이터 마이닝과 데이터 랭글링은 같은 용어인가?”

데이터 마이닝의 정의를 보면, “많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정”이므로 충분히 개념을 헷갈릴 수 있다.

데이터 랭글링과 데이터 마이닝의 관계는 다음과 같다. 데이터 마이닝 프로세스에서는 대규모 데이터 세트 내에서 패턴을 찾는데, 여기서 데이터 랭글링은 해당 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환하는 역할을 한다.

데이터 랭글링은 전체 집합에 도움이 되지 않거나 제대로 형식이 지정되지 않은 데이터를 제거하여 데이터 마이닝에 도움이 될 수 있으며, 이는 전체 데이터 마이닝 프로세스에 대해 더 나은 결과를 제공한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue