SVM(Support Vector Machine): 데이터 공간에서 데이터를 분리(분류)하는 여러 경계 중 가장 마진이 큰 경계를 찾는 방법(분류와 회귀에 모두 사용됨)
SVM의 장단점
장점 | 단점 |
---|---|
비선형 분리 데이터를 커널트릭을 사용하여 분류할 수 있음 | 데이터 전처리와 하이퍼파라미터 설정에 따라 정확도가 달라질 수 있음 |
신경망 기법에 비해 과적합 정도가 낮음 | 예측이 어떻게 이뤄지는지에 대한 이해와 모델에 대한 해석이 어려움 |
예측 정확도가 높음(딥러닝 이전 뛰어난 성능으로 주목받았음) | 대용량 데이터에 대한 모델 구축 시 속도가 느리며, 메모리 할당량이 큼 |
저차원과 고차원 데이터에 대해 모두 잘 작동 |
용어 설명
마진(Margin):결정 경계와 데이터 사이의 거리. 최적의 결정 경계는 마진을 최대화 함
커널 트릭(Kernel Trick): (비선형 분리 데이터를 분류하기 위해) 커널 함수를 이용하여 차원 공간을 고차원 공간으로 매핑해주는 작업
감마(gamma): 결정 경계를 얼마나 유연하게 그릴 것인가?
C 값: 이상치를 얼마나 엄격하게 허용할 것인가?