＂인공지능 개발＂에 필요한 데이터 제어 방법 5가지

"인공지능 개발"에 필요한 데이터 제어 방법 5가지: 이진영 / 기사승인 : 2021-03-10 14:55:53

인공지능(AI) 개발은 수집·가공된 데이터를 수많은 반복 학습을 통해 인공지능 모델(알고리즘)을 생성하고, 이를 검증하며 최종 서비스로 완성된다.

기술정책연구소(XIST)에 따르면 AI 기술이 혁신 서비스 창출 및 생태계 조성을 가속화하기 위해선 "데이터"가 가장 중요하다. AI를 학습하기 위해선 일정 량의 데이터가 필요하고, 데이터 품질에 따라 AI 성능이 결정되기 때문이다.

이에 수많은 데이터 과학자들은 목표하는 비즈니스에 맞는 AI를 개발하기 위한 몇 가지 기술을 활용하고 있다. AI에 입력하는 데이터에 대한 통제력을 유지하기 위한 대표적인 방법 5가지를 소개한다.

1. 데이터 드롭아웃(Data dropout)

데이터 드롭아웃으로 원치 않는 데이터를 선별 배제하는 것은, 인공지능에 입력할 데이터를 제어하는 가장 대표적인 방법이다. 사용중인 데이터 AI가 해결하고자 하는 비즈니스 문제와 관련이 있는지 확인한다.

데이터 과학자들은 AI에서 데이터 드롭아웃을 통해 특정 AI 프로세스와 관련이 없는 것으로 간주되는 모든 데이터를 사전에 제거한다. 예를 들어, 서울시의 인구 통계만 관심 있는 경우, 연구와 무관한 다른 지역에서 들어오는 데이터를 제외한다.

이를 통해 데이터 처리 시간과 AI 결과 출력 시간을 단축할 수 있다. 또 AI 애플리케이션에 입력하는 데이터의 품질과 가치를 높일 수 있다.

2. 데이터 소스 제어(Data source control)

과학 연구를 수행하고 있고, 데이터를 가져오는 소스의 가치를 알 수 없는 경우 이러한 피드를 제거할 수 있다.

데이터 피드는 일반적으로 두 가지 이유로 제거되는데, 첫 번째는 데이터 소스가 애플리케이션과 관련이 없는 경우이고, 두 번째는 데이터나 데이터 소스의 정확성을 신뢰할 수 없는 경우이다.

3. 업무용 사례 관리(Business use case control)

많은 양의 AI 데이터를 처리할 때 생길 수 있는 리스크 중 하나는, AI가 원래 비즈니스 사례에서 멀어질 수 있다는 것이다.

예를 들어 비즈니스 활용 사례가 KTX의 철도 상태 모니터링에만 초점을 맞춘다면, 트래픽 수, 엔진 구성 요소의 고장 등 KTX의 철도 상태와 무관한 과도한 데이터 수집은 필요하지 않을 수 있다. 물론 이러한 사물 인터넷 데이터는 다른 비즈니스 사례에서 사용될 수 있다.

데이터 제거는 항상 주요 비즈니스 활용 사례를 염두에 두고 이뤄져야 한다. 다른 비즈니스 활용 사례가 발생할 경우, 향후 데이터 분석 프로젝트의 임시 저장 공간에 배치될 수 있다.