AdaBoost: 오분류된 데이터의 가중치를 높여서 다음 학습에 해당 데이터가 더 많이 포함되게 만드는 모델을 연속적으로 조합하는 앙상블 알고리즘
방법
약 분류기로 stump(depth가 1인 매우 작은 Decision Tree) 사용
(처음에는 모든) 데이터 셋의 Sample Weight를 1/n로 초기화
불순도가 가장 낮게 분기되는 질문(feature)으로 stump를 찾는다.
찾은 stump의 오분류 결과에 따라 모델의 정확도(Amount of say, 최종 분류에 얼마만큼 영향을 줄지)를 계산
$Amount\\; of\\; say=\\alpha_t=\\frac{1}{2}log(\\frac{1-\\epsilon_t}{\\epsilon_t})$
정확도를 기존 sample weight에 반영하여 오분류된 샘플의 weight는 늘리고, 잘 분류된 샘플의 weight는 낮추는 방식으로 weight를 업데이트
weight를 기준으로 샘플링하여 새로운 데이터 셋을 생성
새로운 데이터 셋으로 했던 것 반복
→ 최종 예측: 결과가 positive라고 예측한 stump들의 가중치의 합과, 결과가 negative라고 예측한 stump들의 가중치의 합을 비교해 큰 쪽을 예측 값으로 결정
장점
단점
(회귀, 분류 다 가능)