1. 전처리 표준 순서

  1. 데이터 클리닝 (결측치 처리, 이상치 제거)
  2. 데이터 분할 (train, test 세트 분리 → data leakage 방지)
  3. 범주형 변수 처리 (원-핫 인코딩)
  4. 수치형 변수 처리 (스케일링)
  5. 모델 학습

원-핫 인코딩을 하면 컬럼이 여러 개로 늘어나기 때문에, 늘어난 모든 컬럼에 대해 일괄적으로 스케일링을 적용하는 것이 매끄럽다. 또한, 모든 피처를 인코딩한 뒤, 마지막 단계에서 모델이 읽기 좋은 형태로 스케일링하는 것이 파이프라인 구성상 훨씬 간결하다.

거리 기반 알고리즘인 KNN, SVM 등에서는 모든 피처의 단위를 맞추는 것이 중요하기에 함께 스케일링 하는 것이 권장된다. 하지만 MinMaxScaler는 이미 0과 1의 값이므로 값의 변화가 거의 없거나 유지된다. 트리 기반 모델은 스케일링 순서나 적용 여부가 결과에 영향이 없다.

2. 인코딩 종류