CWN(CHANGE WITH NEWS) - MIT, 데이터 자동 정제 시스템 ′PClean′ 개발

  • 구름조금제주26.9℃
  • 흐림진주20.7℃
  • 흐림밀양22.1℃
  • 구름많음고산25.3℃
  • 흐림창원22.9℃
  • 구름많음해남22.0℃
  • 흐림제천20.4℃
  • 구름많음진도군21.9℃
  • 비북부산23.6℃
  • 흐림북창원23.4℃
  • 비포항19.6℃
  • 흐림강릉24.3℃
  • 흐림영천18.5℃
  • 흐림양산시24.7℃
  • 흐림철원18.9℃
  • 흐림대관령16.8℃
  • 흐림정선군20.3℃
  • 흐림동해24.0℃
  • 흐림영덕21.8℃
  • 흐림광양시22.5℃
  • 흐림순창군18.7℃
  • 흐림장수17.0℃
  • 흐림이천21.5℃
  • 흐림고창19.1℃
  • 흐림태백19.0℃
  • 흐림남원19.0℃
  • 흐림문경19.9℃
  • 흐림통영24.2℃
  • 구름많음울릉도24.8℃
  • 흐림속초22.3℃
  • 흐림안동20.5℃
  • 흐림영주19.2℃
  • 흐림천안21.4℃
  • 흐림산청18.2℃
  • 흐림임실18.4℃
  • 흐림동두천19.3℃
  • 흐림청송군20.0℃
  • 흐림거창17.8℃
  • 흐림충주21.6℃
  • 비청주22.8℃
  • 흐림고창군19.0℃
  • 흐림부여20.9℃
  • 흐림부안20.6℃
  • 흐림남해22.1℃
  • 흐림군산21.3℃
  • 구름많음여수23.0℃
  • 흐림백령도22.4℃
  • 흐림홍성21.3℃
  • 흐림인제19.5℃
  • 구름많음고흥22.8℃
  • 흐림구미19.4℃
  • 구름많음장흥22.2℃
  • 흐림북춘천20.4℃
  • 흐림세종20.2℃
  • 구름많음완도23.5℃
  • 흐림의성19.5℃
  • 흐림춘천20.6℃
  • 흐림정읍19.3℃
  • 흐림강화19.7℃
  • 비수원20.9℃
  • 흐림영월20.3℃
  • 흐림보령21.1℃
  • 흐림상주19.8℃
  • 흐림봉화19.2℃
  • 흐림추풍령17.7℃
  • 흐림함양군18.5℃
  • 흐림의령군19.7℃
  • 흐림서청주21.0℃
  • 비북강릉22.6℃
  • 흐림대구19.2℃
  • 구름많음강진군22.8℃
  • 흐림순천19.7℃
  • 흐림보은18.8℃
  • 흐림거제24.5℃
  • 비흑산도22.3℃
  • 비서울22.6℃
  • 구름많음성산24.3℃
  • 구름많음서귀포27.0℃
  • 흐림목포20.8℃
  • 흐림금산18.4℃
  • 비대전20.6℃
  • 흐림홍천20.8℃
  • 흐림양평21.0℃
  • 흐림원주21.5℃
  • 흐림부산25.4℃
  • 비광주19.7℃
  • 흐림합천20.0℃
  • 구름많음보성군21.9℃
  • 흐림울산19.9℃
  • 흐림파주19.7℃
  • 흐림울진23.3℃
  • 흐림영광군19.2℃
  • 흐림서산21.6℃
  • 흐림경주시18.7℃
  • 흐림인천23.1℃
  • 흐림김해시22.9℃
  • 흐림전주20.5℃
  • 2025.09.09 (화)

MIT, 데이터 자동 정제 시스템 'PClean' 개발

김영상 / 기사승인 : 2021-05-17 13:39:17
  • -
  • +
  • 인쇄

MIT 연구팀이 중복, 누락 값, 오자, 불일치 등 "더러운 데이터(Dirty data)"를 자동으로 제거하는 새로운 시스템 개발 소식을 발표했다. PClean이라고 불리는 이 시스템은 AI 응용 프로그램의 개발을 단순화하고 자동화하는 것을 목표로 하는 확률적 컴퓨팅 프로젝트의 연구자들이 작성한 일련의 도메인별 확률적 프로그래밍 언어 중, 가장 최신 버전이다.

PClean은 지식 기반 접근 방식을 사용하여 데이터 정제 프로세스를 자동화한다. 먼저, 사용자는 데이터베이스에 대한 배경지식과 나타날 수 있는 문제 유형을 인코딩한다. 아파트 목록 데이터베이스에서 주 이름을 정리하는 문제를 예시로 들어보자. 누군가가 베벌리 힐스에 살지만, 주에 대한 데이터가 공백인 상태를 가정해보자. 캘리포니아에는 유명한 베벌리 힐즈가 있지만 플로리다, 미주리, 텍사스, 볼티모어 근처에도 베벌리 힐즈가 있다. 이런 경우 정확한 위치를 어떻게 파악할까?

여기서 PClean의 표현적 스크립팅 언어가 나온다. 이 시스템을 통해 사용자는 도메인에 대한 배경지식 및 데이터 손상 방법에 대한 정보를 PC에 제공할 수 있다. PClean은 확률적 추론을 통해 지식을 결합하여 답을 도출한다. 예를 들어, 일반적인 임대료에 대한 추가 지식을 고려할 때, PClean은 응답자가 사는 곳의 높은 임대료의 지식을 결합하여 캘리포니아에 있는 베벌리 힐스의 정확한 거주지를 추론한다.

PClean은 MIT의 확률적 컴퓨팅 프로젝트에 구축된 새로운 AI 프로그래밍 모델을 포함하여 확률적 프로그래밍의 최근 발전을 기반으로 하며, 이를 통해 인간 지식의 현실적인 모델을 데이터 해석에 훨씬 쉽게 적용할 수 있다. PClean은 베이지안 추론을 기반으로 하며, 이는 당면한 데이터에 대한 사전 지식에 기초한 확률을 적용하여 모호한 데이터에 대한 대체 설명을 가중하는 접근법이다.

논문의 수석 저자인 알렉스 루는 “PClean은 컴퓨터와 사람의 격차를 해소하기 위한 단계이며, 이 시스템은 데이터를 정리하는 사람에게 문제를 설명할 수 있는 것과 같은 종류의 배경지식을 인코딩하여 컴퓨터에 문제를 학습시키는 효과를 지녔다.”라고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue