CWN(CHANGE WITH NEWS) - 통계학에서 배우는 AI 머신러닝, 앙상블 학습법

  • 구름많음경주시28.8℃
  • 흐림의성25.8℃
  • 구름많음상주27.6℃
  • 구름많음광양시29.6℃
  • 구름많음거제26.8℃
  • 구름많음해남29.1℃
  • 구름많음합천28.4℃
  • 구름많음고창군27.0℃
  • 흐림이천23.8℃
  • 흐림대관령17.3℃
  • 구름많음통영28.7℃
  • 흐림울진21.2℃
  • 구름많음영천30.1℃
  • 흐림양평25.2℃
  • 흐림창원28.2℃
  • 흐림장흥28.4℃
  • 구름많음대전28.3℃
  • 구름많음여수27.5℃
  • 구름많음고흥28.5℃
  • 흐림의령군26.7℃
  • 흐림춘천24.3℃
  • 흐림서산25.4℃
  • 구름많음금산28.7℃
  • 구름많음성산26.3℃
  • 구름많음강화25.6℃
  • 흐림철원23.2℃
  • 구름많음남원27.6℃
  • 흐림영덕22.0℃
  • 흐림구미27.0℃
  • 구름많음포항29.4℃
  • 흐림정읍26.3℃
  • 구름많음산청26.8℃
  • 구름많음군산25.6℃
  • 흐림인천24.3℃
  • 흐림청송군25.6℃
  • 비북강릉20.1℃
  • 흐림진도군28.1℃
  • 구름많음부산28.5℃
  • 비제주26.9℃
  • 흐림북춘천24.7℃
  • 구름많음보은27.4℃
  • 흐림광주25.5℃
  • 구름많음대구29.8℃
  • 흐림전주27.1℃
  • 흐림안동26.1℃
  • 흐림부안26.3℃
  • 구름많음장수24.8℃
  • 구름많음거창30.0℃
  • 구름많음서청주25.8℃
  • 구름많음임실25.4℃
  • 구름많음남해29.0℃
  • 흐림강릉20.9℃
  • 비목포26.3℃
  • 비서귀포29.1℃
  • 흐림보령26.4℃
  • 구름많음진주28.0℃
  • 구름많음서울26.1℃
  • 흐림속초21.1℃
  • 구름많음울릉도23.4℃
  • 구름많음양산시30.7℃
  • 구름많음파주25.6℃
  • 흐림청주27.0℃
  • 구름많음추풍령25.7℃
  • 흐림홍천23.6℃
  • 구름많음함양군30.3℃
  • 구름많음울산28.0℃
  • 구름많음천안24.1℃
  • 맑음백령도23.9℃
  • 흐림홍성25.8℃
  • 구름많음흑산도29.3℃
  • 구름많음순창군
  • 흐림원주23.0℃
  • 흐림고산26.7℃
  • 구름많음영주26.7℃
  • 구름많음순천27.6℃
  • 구름많음부여27.6℃
  • 구름많음고창26.9℃
  • 구름많음세종26.6℃
  • 흐림영월21.3℃
  • 흐림태백18.0℃
  • 흐림동두천24.4℃
  • 흐림정선군21.5℃
  • 구름많음문경29.0℃
  • 흐림수원24.0℃
  • 구름많음동해20.7℃
  • 구름많음강진군30.4℃
  • 구름많음봉화25.0℃
  • 흐림밀양28.1℃
  • 구름많음김해시27.9℃
  • 흐림제천20.6℃
  • 흐림영광군26.7℃
  • 구름많음완도28.3℃
  • 흐림충주25.5℃
  • 흐림북부산29.7℃
  • 흐림인제21.7℃
  • 구름많음북창원28.8℃
  • 구름많음보성군29.2℃
  • 2025.09.13 (토)

통계학에서 배우는 AI 머신러닝, 앙상블 학습법

김수연 / 기사승인 : 2021-02-28 13:41:21
  • -
  • +
  • 인쇄

앙상블(Ensemble)은 '전체적인 어울림이나 통일'을 의미하는데요. 수학에서는 이 앙상블이 많은 수의 입자가 존재하는 경우를 통계적으로 다루는 수학적 방법론을 의미합니다.

이러한 정의의 연장선으로 통계학에서는 앙상블 학습법이라는 용어가 존재합니다.

앙상블 학습법(Ensemble Learning): 분류 분석을 위해 사용되고 있는 방법론으로, 통계학과 기계 학습에서 학습 알고리즘을 따로 쓸 때보다 더 정확한 예측 성능을 얻기 위해 다양한 분류 알고리즘을 사용하여 학습을 진행하는 방법입니다. 단일의 강한 알고리즘 보다 복수의 약한 알고리즘이 더 뛰어날 수 있다는 개념에 기반을 두고 있는 학습법이기도 합니다.

앙상블 학습의 종류?

앙상블 학습의 종류에는 투표기반 분류기인 보팅(Voting), 병렬 결합의 배깅(Bagging), 순차 결합의 부스팅(Boosting) 유형이 있습니다.

보팅은 다양한 분류 알고리즘으로 구성된 학습 방법이 있을 때, 여러 모델에서 구해진 예측 값들을 투표를 통해 가장 좋은 결과를 결정하는 방식입니다. 서로 다른 알고리즘 여러 개를 결합하여 사용하는 것이 특징입니다.

보팅은 다시 하드보팅(Hard Voting)과 소프트보팅(Soft Voting)으로 나뉘는데요. 하드보팅은 다수의 분류기가 예측한 결과값을 최종 결과로 선정하는 다수결의 원칙과 비슷한 원리를 가지고 있으며 소프트 보팅은 각 알고리즘이 예측한 레이블 값 결정 확률을 예측해, 평균을 구하고 이들 중 가장 확률이 높은 레이블 값을 최종 결과로 선정하는 것입니다.

배깅은 보팅 방식과 다른 데이터 세트를 학습합니다. 배깅은 샘플링으로 추출하는 방식인 부트스트래핑(Bootstrapping) 분할 방식을 거쳐 각 모델을 학습시킨 뒤 결과물을 집계하는 방법입니다. 모두 같은 유형의 알고리즘을 사용하며 배깅의 대표적인 방식으로는 랜덤 포레스트(Random Forest)가 있습니다.

부트스트랩? - 복원추출을 통해 원래 데이터의 수만큼 크기를 같도록 하는 샘플링 방법으로, 하나의 모델에 대하여 데이터를 추출할 경우 중복된 데이터가 있을 수 있다.

복원추출? - 추출한 데이터를 다시 모집단에 복원하여 추출하는 것

부스팅은 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법으로, 훈련 오차를 빨리, 쉽게 줄일 수 있다는 장점이 있습니다. 여러 개의 분류기가 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측하도록 다음 분류기에 가중치를 부여하여 학습과 예측을 진행합니다.

예측 성능이 뛰어나므로 앙상블 학습을 주도하는 방식이며, 대표적인 방법으로는 AdaBoost, GBM, LightGBM 등이 있습니다.

AdaBoost? - Adaptive Boost의 약자로, 약한 학습기의 오류 데이터에 가중치를 부여하며 수행하는 대표적인 알고리즘. 속도나 성능적인 측면에서 decision tree를 약한 학습기로 사용

이때, 배깅은 병렬로, 부스팅은 순차적으로 학습하며, 부스팅은 가중치를 부여하지만, 배깅은 그렇지 않다는 차이점이 있습니다.

한번 학습이 끝나면 결과에 따라 가중치를 부여하고, 가중치가 다음 모델의 결과 예측에 영향을 줍니다. 오답에 대해서 높은 가중치를, 정답에 대해서는 낮은 가중치를 부여합니다. 따라서 오답을 정답으로 맞추기 위하여 오답에 더 집중하게 됩니다. 그렇기 때문에 부스팅은 배깅에 비해 에러가 적고 성능이 좋다는 장점이 있지만 순차적으로 학습하기 때문에 속도가 느려진다는 단점이 생깁니다.

각자 방식에 따른 장단점이 존재하기 때문에, 상황에 따른 방식을 선택하여 학습시키는 것이 적합한 방안이 될 수 있습니다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue