• 정규화(스케일링)란

    : 개별 feature의 크기를 모두 같은 단위로 변경하는 것을 의미한다.

  • 정규화를 하는 이유

    : feature의 스케일이 심하게 차이가 나는 경우, 값이 큰 feature가 더 중요하게 반영될 수 있기 때문에 이를 막기 위해 정규화(스케일링)를 시킨다.

  • 방법

    • 최소-최대 정규화(min-max normalization)
      • feature의 값이 0과 1 사이에 위치하도록 스케일링
      • $\frac{x - min}{max - min}$
    • Z-점수 정규화(z-score normalization)(= 표준화)
      • 값의 범위(scale)를 평균 0, 표준편차 1이 되도록 바꿔주는 것(표준정규분포).
      • 이상치 처리에 유리
      • $\frac{x - mean}{std}$

    **Robust Scaler

    • Standard Scaler과 비슷한 방식으로 동작히며 중간값(median)과 IQR(Interquartile Range)을 사용하여 스케일링하기 때문에 이상치(outlier)에 영향을 덜 받는다(robust).