CWN(CHANGE WITH NEWS) - 머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

  • 맑음강릉7.6℃
  • 맑음산청7.1℃
  • 맑음상주6.6℃
  • 맑음양평2.2℃
  • 맑음순천6.5℃
  • 맑음거창4.0℃
  • 맑음백령도0.5℃
  • 맑음정선군4.6℃
  • 맑음경주시10.6℃
  • 맑음대관령0.8℃
  • 맑음거제11.5℃
  • 맑음장흥4.6℃
  • 맑음영광군4.9℃
  • 맑음충주0.7℃
  • 맑음제주10.0℃
  • 맑음영덕9.3℃
  • 맑음울릉도7.9℃
  • 맑음고창군1.9℃
  • 맑음광주5.6℃
  • 맑음부산12.9℃
  • 맑음속초7.1℃
  • 맑음북강릉5.1℃
  • 맑음해남4.3℃
  • 맑음인제3.1℃
  • 맑음세종3.3℃
  • 맑음보은2.1℃
  • 맑음흑산도6.2℃
  • 맑음영월2.9℃
  • 맑음홍성1.1℃
  • 맑음구미6.0℃
  • 맑음철원-0.9℃
  • 맑음파주-1.4℃
  • 맑음북춘천-3.6℃
  • 맑음이천2.8℃
  • 맑음영주5.3℃
  • 맑음수원1.7℃
  • 맑음성산10.5℃
  • 맑음서귀포11.5℃
  • 맑음천안3.4℃
  • 맑음북부산11.5℃
  • 맑음통영10.9℃
  • 맑음완도7.2℃
  • 맑음안동5.3℃
  • 흐림정읍5.0℃
  • 맑음부여-0.3℃
  • 맑음청송군5.8℃
  • 맑음서울3.0℃
  • 맑음태백2.5℃
  • 맑음춘천-2.7℃
  • 맑음양산시13.6℃
  • 맑음울진6.4℃
  • 맑음진도군5.6℃
  • 맑음추풍령5.9℃
  • 맑음청주4.4℃
  • 맑음의성0.7℃
  • 맑음금산3.7℃
  • 맑음고흥4.9℃
  • 맑음합천5.7℃
  • 맑음광양시8.1℃
  • 맑음문경5.7℃
  • 맑음남해9.8℃
  • 맑음부안3.2℃
  • 맑음동두천0.8℃
  • 맑음의령군8.1℃
  • 맑음진주6.4℃
  • 맑음북창원11.5℃
  • 맑음함양군4.4℃
  • 맑음고창3.0℃
  • 박무대전4.2℃
  • 맑음영천8.2℃
  • 맑음동해8.2℃
  • 맑음창원12.5℃
  • 맑음보성군6.9℃
  • 맑음봉화-1.7℃
  • 맑음인천1.8℃
  • 맑음제천0.1℃
  • 맑음포항10.3℃
  • 맑음고산10.5℃
  • 맑음임실4.3℃
  • 맑음장수2.9℃
  • 맑음보령1.4℃
  • 맑음밀양8.5℃
  • 맑음여수10.0℃
  • 흐림서산-0.1℃
  • 맑음대구9.7℃
  • 맑음김해시11.9℃
  • 맑음서청주1.8℃
  • 맑음전주4.5℃
  • 맑음남원3.2℃
  • 맑음군산2.8℃
  • 맑음목포5.1℃
  • 맑음울산10.4℃
  • 맑음강진군4.9℃
  • 맑음강화-0.6℃
  • 맑음홍천-0.4℃
  • 맑음순창군4.7℃
  • 맑음원주2.5℃
  • 2026.01.15 (목)

머신러닝, 더 잘 활용하고 싶다면 "스몰 데이터"에 주목하라 

이진영 / 기사승인 : 2021-10-21 19:07:00
  • -
  • +
  • 인쇄
사진 출처: freepik.com
사진 출처: freepik.com

인공지능(AI)과 함께 빅 데이터의 중요성이 강조되어왔다. 오늘날 정보 통신 분야에서 빠르게 생성되는 거대한 데이터 세트는 인공지능의 발전에 기여하며 큰 역할을 해왔다. 따라서 대중들이 AI에서 빅데이터를 연상하는 것은 놀라운 일이 아니다. 그런데 AI는 단지 대규모 데이터 세트에 관한 것만은 아니다. 미국의 과학 전문 매거진 사이언티픽아메리칸은 '스몰 데이터' 접근법에 대한 연구가 광범위하게 성장해왔다고 강조했다.

미세 조정(fine-tuning)이라고도 불리는 전이 학습(transfer learning)은 관심 있는 작업에 대한 데이터는 거의 없지만 관련 문제에 대한 데이터가 풍부할 때 유용하다. 이는 빅 데이터 세트를 사용해 모델을 교육한 다음, 특정 문제와 관련된 작은 데이터 세트를 사용해 재교육하는 것이다. 인간이 하나의 주제에 대한 지식을 유사한 주제에 전달할 수 있는 것처럼, 전이 학습은 데이터 과학자에게 머신 러닝을 통해 얻은 통찰력을 유사한 주제에 전달할 수 있도록 한다.

예를 들어 인도 방갈로르 연구원은 ImageNet 분류기를 기반으로 전이 학습을 통해 오직 45개의 학습 예시만으로도 초음파 이미지에서 신장을 찾는 모델을 훈련했다. ImageNet은 수천 개 범주로 분류된 수백만 개의 이미지를 포함하는 데이터 세트이다.

독일어 음성 인식에 대한 연구팀은 큰 데이터 세트에 대해 훈련된 영어 음성 모델로 시작해 전이 학습으로 작은 독일어 오디오 세트에 맞게 조정했을 때 결과를 개선할 수 있음을 보여주었다.

이렇게 전이 학습법에 대한 연구는 지난 10년간 크게 성장해왔는데, 조지타운 대학교의 보안 및 신흥 기술 센터(CSET)에 대한 새로운 보고서에서 전이 학습이 2010년 이후 가장 일관되고 높은 연구 성장률을 보인 것으로 나타났다. 또 이러한 성장은 최근 몇 년 동안 광범위한 관심을 끌고 있는 강화 학습 분야를 앞지르는 것으로 나타났다.

전이 학습 연구는 계속 증가할 것으로 예상되는데, 3년 성장 예측 모델에 따르면 스몰 데이터 범주에서 전이 학습 방법에 대한 연구가 2023년까지 가장 빠르게 성장할 것으로 추정된다. 실제로 전이 학습 성장률은 AI 연구 전체 성장률보다 훨씬 높을 것으로 예측되며, 이는 전이 학습이 더 유용해지고 널리 사용될 가능성이 높다는 것을 의미한다.

전이 학습 연구와 같은 스몰 데이터 접근 방식은 더 데이터 집약적인 방법에 비해 많은 이점을 제공한다. 더 적은 데이터로 AI를 사용할 수 있어 상대적으로 드물게 발생하는 재해 예측 또는 디지털 건강 기록이 없는 모집 단의 질병 위험 예측과 같이 데이터가 거의 또는 전혀 존재하지 않는 영역에서 발전을 촉진할 수 있다. 또 더 많은 조직이 AI 애플리케이션 영역을 다양화하고 이전에 개발되지 않은 도메인을 시도함에 따라 전이 학습과 같은 접근 방식이 점점 중요해질 것으로 예상된다.

전이 학습을 이용할 때 사전 훈련된 모델을 사용하면 훈련 시간을 단축하고 알고리즘을 훈련하는 데 필요한 계산 자원의 양을 줄일 수 있다. 물론 사전 훈련된 모델이 목표 문제와 충분히 유사하지 않으면 전이 학습을 효과적으로 활용하기 어렵다. 하지만 이를 잘 활용하면 탄소 배출량을 크게 줄일 수 있는데, 대형 신경망을 훈련하는 과정이 상당한 에너지를 필요로 한다는 점에서 이는 매우 중요하다.

전이 학습은 문제가 이미 유사한 과제에 대해 훈련되었기 때문에 훈련 중에 더 높은 학습률을 제공한다는 장점이 있다. 이는 성능 향상으로 이어지는데, 출발점이 좋아지고 학습률이 높아지는 만큼 더 높은 성능 수준으로 수렴할 수 있는 머신 러닝 모델을 제공해 보다 정확한 출력이 가능하다. 또 사전 훈련된 모델을 활용해 기존 학습 방법보다 더 빠르게 원하는 성능에 도달할 수 있다는 장점이 있다.

전이 학습은 기존에 빅데이터를 활용해온 다양한 분야에 적용할 수 있는데, 이미지 인식, 자연어 처리(NLP, Natural Language Processing), 음성 인식, 자율 주행, 게임 전략, 의료, 스팸 필터링 등 다양한 영역에 활용할 수 있다.


[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue