Decision Tree: 정보획득량이 최대가 되는, 예/아니오로 대답할 수 있는 일련의 질문들을 통해 데이터를 분기해나가는 지도학습 모델
정보획득량: 부모노드의 엔트로피(불순도)와 자식노드들의 엔트로피(불순도)의 가중 평균의 차이
분리된 데이터의 엔트로피가 낮을수록 정보 획득량은 증가함
따라서 정보획득량이 큰 순서대로 질문을 배치
(최적의 특성을 찾고 → 해당 특성으로 잘 나눌 수 있는 최적의 임계치를 찾는 방식)
장점
단점
학습 데이터에 오버피팅되는 경향이 있음
→ 사전(트리 생성을 일찍 중단)/사후 가지치기 전략을 사용할 수 있음
++