머신러닝, 더 잘 활용하고 싶다면 ＂스몰 데이터＂에 주목하라

머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라: 이진영 / 기사승인 : 2021-10-21 19:07:00

인공지능(AI)과 함께 빅 데이터의 중요성이 강조되어왔다. 오늘날 정보 통신 분야에서 빠르게 생성되는 거대한 데이터 세트는 인공지능의 발전에 기여하며 큰 역할을 해왔다. 따라서 대중들이 AI에서 빅데이터를 연상하는 것은 놀라운 일이 아니다. 그런데 AI는 단지 대규모 데이터 세트에 관한 것만은 아니다. 미국의 과학 전문 매거진 사이언티픽아메리칸은 '스몰 데이터' 접근법에 대한 연구가 광범위하게 성장해왔다고 강조했다.

미세 조정(fine-tuning)이라고도 불리는 전이 학습(transfer learning)은 관심 있는 작업에 대한 데이터는 거의 없지만 관련 문제에 대한 데이터가 풍부할 때 유용하다. 이는 빅 데이터 세트를 사용해 모델을 교육한 다음, 특정 문제와 관련된 작은 데이터 세트를 사용해 재교육하는 것이다. 인간이 하나의 주제에 대한 지식을 유사한 주제에 전달할 수 있는 것처럼, 전이 학습은 데이터 과학자에게 머신 러닝을 통해 얻은 통찰력을 유사한 주제에 전달할 수 있도록 한다.

예를 들어 인도 방갈로르 연구원은 ImageNet 분류기를 기반으로 전이 학습을 통해 오직 45개의 학습 예시만으로도 초음파 이미지에서 신장을 찾는 모델을 훈련했다. ImageNet은 수천 개 범주로 분류된 수백만 개의 이미지를 포함하는 데이터 세트이다.

독일어 음성 인식에 대한 연구팀은 큰 데이터 세트에 대해 훈련된 영어 음성 모델로 시작해 전이 학습으로 작은 독일어 오디오 세트에 맞게 조정했을 때 결과를 개선할 수 있음을 보여주었다.

이렇게 전이 학습법에 대한 연구는 지난 10년간 크게 성장해왔는데, 조지타운 대학교의 보안 및 신흥 기술 센터(CSET)에 대한 새로운 보고서에서 전이 학습이 2010년 이후 가장 일관되고 높은 연구 성장률을 보인 것으로 나타났다. 또 이러한 성장은 최근 몇 년 동안 광범위한 관심을 끌고 있는 강화 학습 분야를 앞지르는 것으로 나타났다.

전이 학습 연구는 계속 증가할 것으로 예상되는데, 3년 성장 예측 모델에 따르면 스몰 데이터 범주에서 전이 학습 방법에 대한 연구가 2023년까지 가장 빠르게 성장할 것으로 추정된다. 실제로 전이 학습 성장률은 AI 연구 전체 성장률보다 훨씬 높을 것으로 예측되며, 이는 전이 학습이 더 유용해지고 널리 사용될 가능성이 높다는 것을 의미한다.

전이 학습 연구와 같은 스몰 데이터 접근 방식은 더 데이터 집약적인 방법에 비해 많은 이점을 제공한다. 더 적은 데이터로 AI를 사용할 수 있어 상대적으로 드물게 발생하는 재해 예측 또는 디지털 건강 기록이 없는 모집 단의 질병 위험 예측과 같이 데이터가 거의 또는 전혀 존재하지 않는 영역에서 발전을 촉진할 수 있다. 또 더 많은 조직이 AI 애플리케이션 영역을 다양화하고 이전에 개발되지 않은 도메인을 시도함에 따라 전이 학습과 같은 접근 방식이 점점 중요해질 것으로 예상된다.

전이 학습을 이용할 때 사전 훈련된 모델을 사용하면 훈련 시간을 단축하고 알고리즘을 훈련하는 데 필요한 계산 자원의 양을 줄일 수 있다. 물론 사전 훈련된 모델이 목표 문제와 충분히 유사하지 않으면 전이 학습을 효과적으로 활용하기 어렵다. 하지만 이를 잘 활용하면 탄소 배출량을 크게 줄일 수 있는데, 대형 신경망을 훈련하는 과정이 상당한 에너지를 필요로 한다는 점에서 이는 매우 중요하다.

전이 학습은 문제가 이미 유사한 과제에 대해 훈련되었기 때문에 훈련 중에 더 높은 학습률을 제공한다는 장점이 있다. 이는 성능 향상으로 이어지는데, 출발점이 좋아지고 학습률이 높아지는 만큼 더 높은 성능 수준으로 수렴할 수 있는 머신 러닝 모델을 제공해 보다 정확한 출력이 가능하다. 또 사전 훈련된 모델을 활용해 기존 학습 방법보다 더 빠르게 원하는 성능에 도달할 수 있다는 장점이 있다.

전이 학습은 기존에 빅데이터를 활용해온 다양한 분야에 적용할 수 있는데, 이미지 인식, 자연어 처리(NLP, Natural Language Processing), 음성 인식, 자율 주행, 게임 전략, 의료, 스팸 필터링 등 다양한 영역에 활용할 수 있다.