CWN(CHANGE WITH NEWS) - "인공지능 개발"에 필요한 데이터 제어 방법 5가지

  • 연무울산3.3℃
  • 맑음제주6.5℃
  • 맑음고흥-3.3℃
  • 흐림천안0.0℃
  • 흐림양평0.6℃
  • 맑음해남-0.9℃
  • 안개대전0.3℃
  • 맑음북창원3.7℃
  • 맑음고창군-4.1℃
  • 맑음남원-3.2℃
  • 흐림군산-0.5℃
  • 흐림영월-2.4℃
  • 안개전주-2.9℃
  • 맑음문경-2.7℃
  • 맑음대구-0.7℃
  • 맑음영덕4.0℃
  • 맑음강진군-2.1℃
  • 구름조금거제2.5℃
  • 흐림춘천-1.6℃
  • 맑음밀양-2.7℃
  • 맑음구미-2.5℃
  • 맑음정선군-2.9℃
  • 맑음울진1.7℃
  • 맑음합천-3.3℃
  • 구름조금보성군-1.7℃
  • 박무안동-3.0℃
  • 맑음대관령-6.9℃
  • 박무백령도0.9℃
  • 흐림부여-1.0℃
  • 안개서울1.0℃
  • 맑음보령-1.7℃
  • 흐림강화-0.7℃
  • 맑음순창군-2.4℃
  • 흐림부안0.1℃
  • 맑음광양시3.2℃
  • 맑음진주-3.5℃
  • 박무수원0.7℃
  • 맑음청송군-6.2℃
  • 흐림충주-1.9℃
  • 안개청주-0.5℃
  • 맑음의령군-5.1℃
  • 맑음완도1.7℃
  • 맑음창원3.8℃
  • 흐림원주0.3℃
  • 맑음정읍-3.7℃
  • 구름조금고산8.5℃
  • 맑음부산6.6℃
  • 안개광주-0.4℃
  • 박무북부산-0.8℃
  • 안개인천0.7℃
  • 안개목포0.0℃
  • 연무포항4.6℃
  • 안개홍성-2.0℃
  • 흐림세종-0.1℃
  • 흐림파주-1.4℃
  • 맑음속초4.5℃
  • 맑음동해3.1℃
  • 박무흑산도4.3℃
  • 흐림철원-1.2℃
  • 맑음태백-5.0℃
  • 흐림서청주-0.8℃
  • 흐림서산-1.6℃
  • 맑음경주시-2.2℃
  • 구름조금남해3.3℃
  • 맑음고창-5.1℃
  • 흐림동두천-0.4℃
  • 맑음금산-2.2℃
  • 맑음통영3.5℃
  • 맑음추풍령-4.0℃
  • 흐림북춘천-2.1℃
  • 맑음영광군-2.0℃
  • 맑음북강릉3.4℃
  • 맑음임실-2.7℃
  • 맑음여수3.9℃
  • 맑음영천-2.9℃
  • 구름조금서귀포8.2℃
  • 맑음강릉4.7℃
  • 맑음장수-5.2℃
  • 구름조금진도군-1.0℃
  • 맑음순천-3.7℃
  • 맑음김해시3.4℃
  • 맑음보은-2.6℃
  • 흐림홍천-0.9℃
  • 맑음산청-3.9℃
  • 맑음의성-5.1℃
  • 맑음양산시0.1℃
  • 맑음울릉도6.5℃
  • 맑음장흥-3.4℃
  • 맑음인제-1.6℃
  • 흐림이천0.1℃
  • 맑음성산5.5℃
  • 맑음영주-3.1℃
  • 맑음함양군-5.4℃
  • 맑음봉화-7.0℃
  • 맑음상주-2.6℃
  • 흐림제천-0.2℃
  • 맑음거창-5.7℃
  • 2026.01.16 (금)

"인공지능 개발"에 필요한 데이터 제어 방법 5가지

이진영 / 기사승인 : 2021-03-10 14:55:53
  • -
  • +
  • 인쇄

인공지능(AI) 개발은 수집·가공된 데이터를 수많은 반복 학습을 통해 인공지능 모델(알고리즘)을 생성하고, 이를 검증하며 최종 서비스로 완성된다.

기술정책연구소(XIST)에 따르면 AI 기술이 혁신 서비스 창출 및 생태계 조성을 가속화하기 위해선 "데이터"가 가장 중요하다. AI를 학습하기 위해선 일정 량의 데이터가 필요하고, 데이터 품질에 따라 AI 성능이 결정되기 때문이다.

이에 수많은 데이터 과학자들은 목표하는 비즈니스에 맞는 AI를 개발하기 위한 몇 가지 기술을 활용하고 있다. AI에 입력하는 데이터에 대한 통제력을 유지하기 위한 대표적인 방법 5가지를 소개한다.

1. 데이터 드롭아웃(Data dropout)

데이터 드롭아웃으로 원치 않는 데이터를 선별 배제하는 것은, 인공지능에 입력할 데이터를 제어하는 가장 대표적인 방법이다. 사용중인 데이터 AI가 해결하고자 하는 비즈니스 문제와 관련이 있는지 확인한다.

데이터 과학자들은 AI에서 데이터 드롭아웃을 통해 특정 AI 프로세스와 관련이 없는 것으로 간주되는 모든 데이터를 사전에 제거한다. 예를 들어, 서울시의 인구 통계만 관심 있는 경우, 연구와 무관한 다른 지역에서 들어오는 데이터를 제외한다.

이를 통해 데이터 처리 시간과 AI 결과 출력 시간을 단축할 수 있다. 또 AI 애플리케이션에 입력하는 데이터의 품질과 가치를 높일 수 있다.

2. 데이터 소스 제어(Data source control)

과학 연구를 수행하고 있고, 데이터를 가져오는 소스의 가치를 알 수 없는 경우 이러한 피드를 제거할 수 있다.

데이터 피드는 일반적으로 두 가지 이유로 제거되는데, 첫 번째는 데이터 소스가 애플리케이션과 관련이 없는 경우이고, 두 번째는 데이터나 데이터 소스의 정확성을 신뢰할 수 없는 경우이다.

3. 업무용 사례 관리(Business use case control)

많은 양의 AI 데이터를 처리할 때 생길 수 있는 리스크 중 하나는, AI가 원래 비즈니스 사례에서 멀어질 수 있다는 것이다.

예를 들어 비즈니스 활용 사례가 KTX의 철도 상태 모니터링에만 초점을 맞춘다면, 트래픽 수, 엔진 구성 요소의 고장 등 KTX의 철도 상태와 무관한 과도한 데이터 수집은 필요하지 않을 수 있다. 물론 이러한 사물 인터넷 데이터는 다른 비즈니스 사례에서 사용될 수 있다.

데이터 제거는 항상 주요 비즈니스 활용 사례를 염두에 두고 이뤄져야 한다. 다른 비즈니스 활용 사례가 발생할 경우, 향후 데이터 분석 프로젝트의 임시 저장 공간에 배치될 수 있다.

[사진 출처: freepick.com]

4. 95%의 법칙

기업은 프로세스 자동화를 위해 AI를 사용할 때 95%의 정확성 또는 그 이상을 달성하기 위해 노력한다. 이는 AI가 유사한 수동 또는 인간 프로세스와 비교할 때 95%의 정확도에서 할당된 작업을 수행하는 것을 의미한다.

95% 정확도 표준에 달성하는 방법은 단 한 가지밖에 없다. 95% 정확도로 미세 조정될 때까지 분석 알고리즘을 반복적으로 수정하고 테스트하는 것이다.

알고리즘을 미세 조정 프로세스 중에 조직은 알고리즘에 연결하는 데이터를 축소할 필요성을 느낄 수 있다.

5. 데이터 밸런싱 작업(Data balancing act)

AI 프로세스에 대한 데이터를 자주 제외하는 것은 필요한 단계이지만 위험도 수반한다.

몇 년 전 영국의 한 소매 업체는 일요일 오후에 온라인 판매가 더 많은 이유를 알고 싶어 했다. 해당 업체는 일요일 오후에 남편들이 축구 경기를 보러 가는 날이라는 사실을 발견했다. 아내들은 집에서 혼자 시간을 보내며 온라인 주문을 했던 것이다.

이는 AI 프로세스 초기에 무관하다고 판단되는 데이터를 제외할 경우, 직접적인 AI 분석 프로그램이 놓칠 수 있었던 이례적인 데이터 발견이었다. 따라서 AI가 처리해야 하는 데이터 양을 제한하는 것도 중요하지만, 너무 과도한 데이터 축소는 피해야 한다.

너무 많은 데이터를 제외하는 위험은 피하면서 불필요한 데이터를 제거하는, 균형을 유지하는 방법을 찾는 것은 IT가 해결해야 하는 중앙 데이터 관리 과제이다.

참고 사이트: TechRepublic

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue