차원 축소는 피쳐 선택(feature selection)과 피쳐 추출(feature extraction)으로 나눌 수 있음
피쳐 선택: 불필요한 피처는 제거하고 데이터의 특징을 잘 표현하는 주요 피처만 선택하는 것
피처 추출: 기존 변수들의 조합으로 새로운 특징을 생성하는 것
PCA(Principle Component Analysis):
** 공분산: 두 변수가 함께 변하는 정도 / 공분산 행렬: 데이터의 구조를 설명해줌(공분산행렬로 공분산, 각 변수의 분산을 알 수 있음(변수개 많을경우, 여러 개의 두 변량 값의 공분산)(공분산 행렬 = 대칭 행렬, 정방 행렬)
** 고유 벡터: 선형 변환이 일어난 후에도 방향이 변하지 않는, 0이 아닌 벡터(공분산 행렬의 고유 벡터: 데이터가 어떤 방향으로 분산되어 있는지)
** 고유 값: 고유벡터 방향으로 얼마만큼의 크기로 벡터공간이 늘려지는 지를 얘기한다(해당 벡터에 정사영했을 때의 분산 값. 고유 벡터의 크기)
SVD(Singular Value Decomposition):