• 앙상블: 여러 개의 개별 모델을 조합하여 보다 정확한 예측을 도출하는 기법

  • 앙상블 기법들

    • 배깅(Bagging, bootstrap aggregation의 약자) : 샘플(복원랜덤추출)을 여러번 뽑아서(bootstrap) 각 (동일한 알고리즘)모델을 학습시킨 다음 결과물을 집계하는 방법

      • 대표적으로 Random Forest 모델이 있음
    • 보팅(Voting) : 각기 다른 알고리즘을 이용하여 최종 예측 값을 투표하는 방식

      • Hard voting: 다수결
      • Soft voting: Proba의 평균으로 결정

      Untitled

    • 부스팅(Boosting) : 부스팅은 머신러닝 앙상블 기법 중 하나로 약한 학습기(weak learner)들을 순차적으로 여러 개 결합하여 예측 혹은 분류 성능을 높이는 알고리즘

      • 대표적으로 Gradient boost, XGBoost, LightGBM 등이 있음
    • 스태킹(Stacking) : Cross Validation 기반으로 개별 모델이 예측한 결과를 다시 Meta dataset으로 사용하여 최종 모델 Meta Learner에서 학습하는 방식

      Untitled

  • 배깅 & 부스팅

    • 공통점: 복원랜덤추출로 훈련 집합을 생성
    • 차이점
      • 배깅은 병렬학습, 부스팅은 순차학습
      • 흔히 배깅은 모델의 분산을 줄이는 방법이고, 부스팅은 모델의 편향을 줄이는 방법이라고 함