CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 맑음세종22.8℃
  • 맑음북춘천19.3℃
  • 맑음천안20.8℃
  • 맑음정읍22.7℃
  • 맑음봉화17.9℃
  • 맑음춘천20.9℃
  • 맑음양평21.1℃
  • 맑음서청주21.6℃
  • 맑음순창군22.5℃
  • 맑음목포24.3℃
  • 맑음영월21.3℃
  • 맑음서산21.6℃
  • 구름조금경주시22.2℃
  • 맑음속초20.3℃
  • 맑음완도23.5℃
  • 맑음영천20.7℃
  • 맑음영광군24.3℃
  • 맑음인제17.1℃
  • 구름조금진도군22.3℃
  • 맑음서귀포25.9℃
  • 맑음울진21.9℃
  • 맑음태백16.9℃
  • 맑음서울25.5℃
  • 맑음제천18.4℃
  • 맑음산청21.7℃
  • 맑음대구22.4℃
  • 구름조금순천21.9℃
  • 맑음구미22.2℃
  • 맑음대관령13.1℃
  • 맑음부산24.3℃
  • 맑음청송군18.9℃
  • 구름조금장수19.2℃
  • 맑음영주20.2℃
  • 구름조금김해시23.4℃
  • 맑음진주22.2℃
  • 구름조금남해23.3℃
  • 맑음상주23.1℃
  • 맑음광주24.1℃
  • 맑음정선군18.9℃
  • 맑음전주24.4℃
  • 구름많음창원23.7℃
  • 맑음이천20.3℃
  • 맑음철원21.0℃
  • 맑음통영24.0℃
  • 맑음백령도22.0℃
  • 구름조금광양시24.1℃
  • 맑음거제24.4℃
  • 맑음북부산24.6℃
  • 맑음북강릉20.2℃
  • 맑음고창23.1℃
  • 맑음부여22.6℃
  • 맑음문경22.7℃
  • 맑음홍천19.7℃
  • 맑음성산25.1℃
  • 맑음동두천21.0℃
  • 맑음보령22.6℃
  • 맑음금산21.3℃
  • 구름조금함양군21.4℃
  • 맑음수원22.1℃
  • 맑음거창20.3℃
  • 맑음강릉22.1℃
  • 구름조금강진군24.0℃
  • 흐림제주25.6℃
  • 맑음임실21.0℃
  • 맑음남원23.5℃
  • 맑음합천21.8℃
  • 맑음의성21.0℃
  • 구름조금양산시24.6℃
  • 맑음보은21.2℃
  • 구름조금고산24.7℃
  • 맑음인천26.0℃
  • 맑음울산22.2℃
  • 맑음고흥23.0℃
  • 맑음군산23.4℃
  • 구름조금북창원24.4℃
  • 맑음보성군24.0℃
  • 맑음파주19.5℃
  • 맑음충주21.1℃
  • 맑음강화22.2℃
  • 맑음안동23.1℃
  • 맑음대전23.7℃
  • 맑음청주26.7℃
  • 구름조금울릉도22.6℃
  • 구름조금밀양24.7℃
  • 맑음홍성22.1℃
  • 맑음해남22.7℃
  • 맑음흑산도24.2℃
  • 맑음고창군23.8℃
  • 맑음추풍령19.9℃
  • 맑음동해21.7℃
  • 맑음부안23.9℃
  • 맑음영덕20.2℃
  • 맑음원주22.1℃
  • 구름조금장흥23.9℃
  • 맑음포항23.3℃
  • 구름조금의령군20.6℃
  • 구름많음여수24.8℃
  • 2025.09.10 (수)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue