CWN(CHANGE WITH NEWS) - "인공지능 개발"에 필요한 데이터 제어 방법 5가지

  • 맑음완도12.2℃
  • 맑음고창5.8℃
  • 맑음봉화-0.4℃
  • 맑음진주4.9℃
  • 맑음광양시9.9℃
  • 맑음대관령4.5℃
  • 맑음울진9.1℃
  • 구름많음백령도10.1℃
  • 맑음천안4.7℃
  • 맑음북강릉10.9℃
  • 맑음광주10.4℃
  • 맑음강진군7.3℃
  • 맑음보은3.8℃
  • 구름많음춘천2.5℃
  • 맑음파주4.6℃
  • 맑음금산5.6℃
  • 맑음동해7.9℃
  • 맑음여수11.5℃
  • 맑음북창원10.3℃
  • 맑음구미5.2℃
  • 맑음문경8.3℃
  • 맑음수원6.8℃
  • 맑음산청5.4℃
  • 맑음흑산도12.5℃
  • 구름조금속초11.6℃
  • 맑음영월4.2℃
  • 구름많음북춘천2.0℃
  • 맑음전주8.9℃
  • 맑음서울9.1℃
  • 맑음군산8.9℃
  • 구름많음거제10.6℃
  • 맑음영덕9.0℃
  • 맑음제천3.4℃
  • 맑음함양군3.8℃
  • 맑음상주10.8℃
  • 맑음청송군1.5℃
  • 맑음태백3.2℃
  • 맑음서귀포14.9℃
  • 맑음추풍령4.9℃
  • 맑음부여8.5℃
  • 맑음창원10.5℃
  • 맑음양산시8.0℃
  • 맑음정읍7.8℃
  • 맑음서산5.4℃
  • 맑음정선군4.1℃
  • 맑음보성군7.8℃
  • 맑음원주6.7℃
  • 맑음고창군6.4℃
  • 맑음부산13.5℃
  • 맑음울산11.0℃
  • 맑음홍성7.8℃
  • 맑음울릉도13.4℃
  • 구름조금철원7.7℃
  • 맑음영광군8.5℃
  • 맑음대구6.5℃
  • 맑음거창3.2℃
  • 맑음충주4.9℃
  • 맑음순창군5.5℃
  • 구름조금강화5.7℃
  • 맑음장수2.7℃
  • 맑음밀양5.2℃
  • 구름많음남원6.3℃
  • 구름조금인천9.9℃
  • 맑음합천6.2℃
  • 맑음보령6.2℃
  • 구름조금통영12.5℃
  • 맑음강릉12.3℃
  • 맑음의령군3.6℃
  • 맑음김해시11.0℃
  • 맑음고산15.1℃
  • 맑음세종7.5℃
  • 맑음서청주7.9℃
  • 맑음영천3.7℃
  • 맑음안동4.8℃
  • 구름조금동두천5.6℃
  • 구름조금홍천4.0℃
  • 맑음양평5.0℃
  • 맑음남해10.0℃
  • 맑음의성1.9℃
  • 맑음목포12.5℃
  • 맑음임실5.4℃
  • 맑음부안8.3℃
  • 맑음포항12.1℃
  • 맑음순천3.9℃
  • 맑음고흥8.7℃
  • 맑음제주15.5℃
  • 맑음이천7.1℃
  • 맑음영주1.3℃
  • 맑음청주9.3℃
  • 맑음인제2.9℃
  • 맑음장흥5.6℃
  • 맑음경주시4.7℃
  • 맑음북부산7.1℃
  • 맑음진도군8.1℃
  • 구름조금성산11.7℃
  • 맑음해남6.7℃
  • 맑음대전8.6℃
  • 2025.11.25 (화)

"인공지능 개발"에 필요한 데이터 제어 방법 5가지

이진영 / 기사승인 : 2021-03-10 14:55:53
  • -
  • +
  • 인쇄

인공지능(AI) 개발은 수집·가공된 데이터를 수많은 반복 학습을 통해 인공지능 모델(알고리즘)을 생성하고, 이를 검증하며 최종 서비스로 완성된다.

기술정책연구소(XIST)에 따르면 AI 기술이 혁신 서비스 창출 및 생태계 조성을 가속화하기 위해선 "데이터"가 가장 중요하다. AI를 학습하기 위해선 일정 량의 데이터가 필요하고, 데이터 품질에 따라 AI 성능이 결정되기 때문이다.

이에 수많은 데이터 과학자들은 목표하는 비즈니스에 맞는 AI를 개발하기 위한 몇 가지 기술을 활용하고 있다. AI에 입력하는 데이터에 대한 통제력을 유지하기 위한 대표적인 방법 5가지를 소개한다.

1. 데이터 드롭아웃(Data dropout)

데이터 드롭아웃으로 원치 않는 데이터를 선별 배제하는 것은, 인공지능에 입력할 데이터를 제어하는 가장 대표적인 방법이다. 사용중인 데이터 AI가 해결하고자 하는 비즈니스 문제와 관련이 있는지 확인한다.

데이터 과학자들은 AI에서 데이터 드롭아웃을 통해 특정 AI 프로세스와 관련이 없는 것으로 간주되는 모든 데이터를 사전에 제거한다. 예를 들어, 서울시의 인구 통계만 관심 있는 경우, 연구와 무관한 다른 지역에서 들어오는 데이터를 제외한다.

이를 통해 데이터 처리 시간과 AI 결과 출력 시간을 단축할 수 있다. 또 AI 애플리케이션에 입력하는 데이터의 품질과 가치를 높일 수 있다.

2. 데이터 소스 제어(Data source control)

과학 연구를 수행하고 있고, 데이터를 가져오는 소스의 가치를 알 수 없는 경우 이러한 피드를 제거할 수 있다.

데이터 피드는 일반적으로 두 가지 이유로 제거되는데, 첫 번째는 데이터 소스가 애플리케이션과 관련이 없는 경우이고, 두 번째는 데이터나 데이터 소스의 정확성을 신뢰할 수 없는 경우이다.

3. 업무용 사례 관리(Business use case control)

많은 양의 AI 데이터를 처리할 때 생길 수 있는 리스크 중 하나는, AI가 원래 비즈니스 사례에서 멀어질 수 있다는 것이다.

예를 들어 비즈니스 활용 사례가 KTX의 철도 상태 모니터링에만 초점을 맞춘다면, 트래픽 수, 엔진 구성 요소의 고장 등 KTX의 철도 상태와 무관한 과도한 데이터 수집은 필요하지 않을 수 있다. 물론 이러한 사물 인터넷 데이터는 다른 비즈니스 사례에서 사용될 수 있다.

데이터 제거는 항상 주요 비즈니스 활용 사례를 염두에 두고 이뤄져야 한다. 다른 비즈니스 활용 사례가 발생할 경우, 향후 데이터 분석 프로젝트의 임시 저장 공간에 배치될 수 있다.

[사진 출처: freepick.com]

4. 95%의 법칙

기업은 프로세스 자동화를 위해 AI를 사용할 때 95%의 정확성 또는 그 이상을 달성하기 위해 노력한다. 이는 AI가 유사한 수동 또는 인간 프로세스와 비교할 때 95%의 정확도에서 할당된 작업을 수행하는 것을 의미한다.

95% 정확도 표준에 달성하는 방법은 단 한 가지밖에 없다. 95% 정확도로 미세 조정될 때까지 분석 알고리즘을 반복적으로 수정하고 테스트하는 것이다.

알고리즘을 미세 조정 프로세스 중에 조직은 알고리즘에 연결하는 데이터를 축소할 필요성을 느낄 수 있다.

5. 데이터 밸런싱 작업(Data balancing act)

AI 프로세스에 대한 데이터를 자주 제외하는 것은 필요한 단계이지만 위험도 수반한다.

몇 년 전 영국의 한 소매 업체는 일요일 오후에 온라인 판매가 더 많은 이유를 알고 싶어 했다. 해당 업체는 일요일 오후에 남편들이 축구 경기를 보러 가는 날이라는 사실을 발견했다. 아내들은 집에서 혼자 시간을 보내며 온라인 주문을 했던 것이다.

이는 AI 프로세스 초기에 무관하다고 판단되는 데이터를 제외할 경우, 직접적인 AI 분석 프로그램이 놓칠 수 있었던 이례적인 데이터 발견이었다. 따라서 AI가 처리해야 하는 데이터 양을 제한하는 것도 중요하지만, 너무 과도한 데이터 축소는 피해야 한다.

너무 많은 데이터를 제외하는 위험은 피하면서 불필요한 데이터를 제거하는, 균형을 유지하는 방법을 찾는 것은 IT가 해결해야 하는 중앙 데이터 관리 과제이다.

참고 사이트: TechRepublic

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue