CWN(CHANGE WITH NEWS) - 머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

  • 맑음진주18.6℃
  • 맑음영덕17.8℃
  • 맑음보은16.5℃
  • 맑음해남18.6℃
  • 연무백령도13.1℃
  • 맑음창원18.3℃
  • 맑음거제17.1℃
  • 맑음임실18.0℃
  • 맑음상주17.2℃
  • 연무흑산도17.6℃
  • 맑음산청17.6℃
  • 맑음문경17.0℃
  • 맑음정읍18.4℃
  • 맑음강화13.7℃
  • 맑음동해15.5℃
  • 맑음파주15.6℃
  • 맑음북창원19.6℃
  • 맑음완도19.1℃
  • 맑음북부산19.0℃
  • 구름조금대관령10.4℃
  • 맑음장수15.4℃
  • 맑음강릉17.8℃
  • 맑음고산19.6℃
  • 구름조금양평16.0℃
  • 맑음충주16.2℃
  • 맑음영천17.6℃
  • 구름많음성산16.0℃
  • 맑음강진군19.8℃
  • 맑음세종17.1℃
  • 맑음부산19.0℃
  • 맑음경주시20.2℃
  • 구름조금춘천15.6℃
  • 맑음순천18.2℃
  • 구름조금이천16.8℃
  • 맑음합천18.6℃
  • 구름많음북춘천14.7℃
  • 구름조금제주20.5℃
  • 맑음통영18.2℃
  • 맑음영주15.1℃
  • 구름조금서귀포20.5℃
  • 맑음고창군18.2℃
  • 맑음대구18.6℃
  • 맑음목포18.0℃
  • 맑음전주17.8℃
  • 맑음고창18.3℃
  • 맑음광주18.7℃
  • 맑음서산16.2℃
  • 맑음안동17.0℃
  • 맑음포항19.3℃
  • 맑음밀양19.2℃
  • 맑음양산시19.3℃
  • 구름조금수원16.3℃
  • 연무인천15.2℃
  • 맑음청주17.4℃
  • 맑음봉화14.7℃
  • 맑음김해시19.0℃
  • 맑음광양시19.1℃
  • 맑음남원18.0℃
  • 맑음울산19.6℃
  • 맑음부안17.8℃
  • 구름조금정선군13.9℃
  • 맑음대전18.2℃
  • 맑음고흥19.3℃
  • 맑음홍천15.0℃
  • 맑음울진19.1℃
  • 맑음구미17.5℃
  • 맑음울릉도16.8℃
  • 구름조금영월14.9℃
  • 맑음추풍령17.1℃
  • 맑음군산16.1℃
  • 맑음금산17.6℃
  • 구름조금속초15.7℃
  • 구름많음인제13.9℃
  • 맑음장흥19.5℃
  • 맑음진도군18.0℃
  • 연무홍성16.0℃
  • 구름조금철원14.8℃
  • 맑음청송군17.1℃
  • 구름조금원주15.9℃
  • 맑음의성17.7℃
  • 맑음남해18.0℃
  • 맑음영광군17.5℃
  • 맑음함양군18.3℃
  • 구름조금제천14.5℃
  • 맑음거창18.5℃
  • 구름조금동두천15.6℃
  • 맑음부여16.7℃
  • 맑음의령군18.6℃
  • 맑음북강릉16.2℃
  • 맑음순창군16.9℃
  • 연무서울16.6℃
  • 맑음보성군18.5℃
  • 맑음보령15.9℃
  • 구름조금천안16.3℃
  • 맑음태백12.7℃
  • 맑음여수18.0℃
  • 맑음서청주16.8℃
  • 2025.11.24 (월)

머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

이진영 / 기사승인 : 2021-10-21 19:07:00
  • -
  • +
  • 인쇄
사진 출처: freepik.com
사진 출처: freepik.com

인공지능(AI)과 함께 빅 데이터의 중요성이 강조되어왔다. 오늘날 정보 통신 분야에서 빠르게 생성되는 거대한 데이터 세트는 인공지능의 발전에 기여하며 큰 역할을 해왔다. 따라서 대중들이 AI에서 빅데이터를 연상하는 것은 놀라운 일이 아니다. 그런데 AI는 단지 대규모 데이터 세트에 관한 것만은 아니다. 미국의 과학 전문 매거진 사이언티픽아메리칸은 '스몰 데이터' 접근법에 대한 연구가 광범위하게 성장해왔다고 강조했다.

미세 조정(fine-tuning)이라고도 불리는 전이 학습(transfer learning)은 관심 있는 작업에 대한 데이터는 거의 없지만 관련 문제에 대한 데이터가 풍부할 때 유용하다. 이는 빅 데이터 세트를 사용해 모델을 교육한 다음, 특정 문제와 관련된 작은 데이터 세트를 사용해 재교육하는 것이다. 인간이 하나의 주제에 대한 지식을 유사한 주제에 전달할 수 있는 것처럼, 전이 학습은 데이터 과학자에게 머신 러닝을 통해 얻은 통찰력을 유사한 주제에 전달할 수 있도록 한다.

예를 들어 인도 방갈로르 연구원은 ImageNet 분류기를 기반으로 전이 학습을 통해 오직 45개의 학습 예시만으로도 초음파 이미지에서 신장을 찾는 모델을 훈련했다. ImageNet은 수천 개 범주로 분류된 수백만 개의 이미지를 포함하는 데이터 세트이다.

독일어 음성 인식에 대한 연구팀은 큰 데이터 세트에 대해 훈련된 영어 음성 모델로 시작해 전이 학습으로 작은 독일어 오디오 세트에 맞게 조정했을 때 결과를 개선할 수 있음을 보여주었다.

이렇게 전이 학습법에 대한 연구는 지난 10년간 크게 성장해왔는데, 조지타운 대학교의 보안 및 신흥 기술 센터(CSET)에 대한 새로운 보고서에서 전이 학습이 2010년 이후 가장 일관되고 높은 연구 성장률을 보인 것으로 나타났다. 또 이러한 성장은 최근 몇 년 동안 광범위한 관심을 끌고 있는 강화 학습 분야를 앞지르는 것으로 나타났다.

전이 학습 연구는 계속 증가할 것으로 예상되는데, 3년 성장 예측 모델에 따르면 스몰 데이터 범주에서 전이 학습 방법에 대한 연구가 2023년까지 가장 빠르게 성장할 것으로 추정된다. 실제로 전이 학습 성장률은 AI 연구 전체 성장률보다 훨씬 높을 것으로 예측되며, 이는 전이 학습이 더 유용해지고 널리 사용될 가능성이 높다는 것을 의미한다.

전이 학습 연구와 같은 스몰 데이터 접근 방식은 더 데이터 집약적인 방법에 비해 많은 이점을 제공한다. 더 적은 데이터로 AI를 사용할 수 있어 상대적으로 드물게 발생하는 재해 예측 또는 디지털 건강 기록이 없는 모집 단의 질병 위험 예측과 같이 데이터가 거의 또는 전혀 존재하지 않는 영역에서 발전을 촉진할 수 있다. 또 더 많은 조직이 AI 애플리케이션 영역을 다양화하고 이전에 개발되지 않은 도메인을 시도함에 따라 전이 학습과 같은 접근 방식이 점점 중요해질 것으로 예상된다.

전이 학습을 이용할 때 사전 훈련된 모델을 사용하면 훈련 시간을 단축하고 알고리즘을 훈련하는 데 필요한 계산 자원의 양을 줄일 수 있다. 물론 사전 훈련된 모델이 목표 문제와 충분히 유사하지 않으면 전이 학습을 효과적으로 활용하기 어렵다. 하지만 이를 잘 활용하면 탄소 배출량을 크게 줄일 수 있는데, 대형 신경망을 훈련하는 과정이 상당한 에너지를 필요로 한다는 점에서 이는 매우 중요하다.

전이 학습은 문제가 이미 유사한 과제에 대해 훈련되었기 때문에 훈련 중에 더 높은 학습률을 제공한다는 장점이 있다. 이는 성능 향상으로 이어지는데, 출발점이 좋아지고 학습률이 높아지는 만큼 더 높은 성능 수준으로 수렴할 수 있는 머신 러닝 모델을 제공해 보다 정확한 출력이 가능하다. 또 사전 훈련된 모델을 활용해 기존 학습 방법보다 더 빠르게 원하는 성능에 도달할 수 있다는 장점이 있다.

전이 학습은 기존에 빅데이터를 활용해온 다양한 분야에 적용할 수 있는데, 이미지 인식, 자연어 처리(NLP, Natural Language Processing), 음성 인식, 자율 주행, 게임 전략, 의료, 스팸 필터링 등 다양한 영역에 활용할 수 있다.


[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue