AI/모델

AI 모델 만들기 시리즈 5화 – 결측치, 이상치, 정규화… 데이터 전처리의 실전 전략

B컷개발자 2025. 5. 5. 13:28
728x90
SMALL

AI 모델의 성능은 알고리즘이 아닌 데이터에 의해 결정된다는 말이 있습니다.

그중에서도 **데이터 전처리(preprocessing)**는 실전 AI 개발의 70% 이상을 차지할 만큼 중요한 과정입니다.

이번 글에서는 데이터 전처리의 핵심 절차와, 실무에서 자주 사용되는 전처리 기법들을 정리합니다.

 


 

데이터 전처리란?

 

데이터 전처리는 모델 학습에 적합하도록 데이터를 정제하고 변환하는 일련의 과정을 말합니다.

수집된 원본 데이터는 대부분 그대로 사용할 수 없으며, 다음과 같은 문제가 존재합니다:

 

  • 누락된 값(결측치)
  • 이상치(극단적 값)
  • 형식 불일치
  • 범주형 변수 처리 미흡
  • 변수 간 단위 차이
  • 불필요한 컬럼 존재 등

 

전처리는 데이터를 신뢰도 있고, 모델에 잘 맞는 형태로 바꾸는 작업입니다.

 


 

데이터 전처리 단계별 흐름

 

  1. 데이터 탐색 및 요약
  2. 결측치 탐지 및 처리
  3. 이상치 탐지 및 처리
  4. 범주형 변수 인코딩
  5. 수치형 변수 스케일링(정규화/표준화)
  6. 불필요한 변수 제거 및 파생변수 생성
  7. 학습용 데이터 분할

 

이 흐름은 상황에 따라 순서가 다를 수 있지만, 결측치 및 이상치 처리는 가장 먼저 이루어지는 것이 일반적입니다.

 


 

1. 결측치(Missing Value) 처리

 

 

발생 원인

 

  • 설문 미응답
  • 센서 오작동
  • 수집 로직 오류

 

 

탐지 방법

import pandas as pd
df.isnull().sum()

 

처리 방식

방식설명사용 예시

제거 해당 행/열 삭제 결측치가 소수일 경우
대체 평균/중앙값/최빈값으로 대체 수치형 변수
예측 다른 변수로 회귀/분류 예측 결측이 많은 경우

주의: 결측치가 비정상적이면 단순 제거보다 원인 분석이 우선입니다.

 


 

2. 이상치(Outlier) 처리

 

 

탐지 기준

 

  • IQR 방식: 1.5 * IQR 바깥의 값
  • Z-score: 표준편차 기준 ±3 넘어가는 값
  • 시각화: Boxplot, Scatterplot 활용

 

 

처리 전략

 

  • 도메인 지식 기반 수동 필터링
  • 로깅/시계열 데이터에서는 이상치 자체가 의미를 가지는 경우도 있음
  • 회귀/평균 기반 모델은 이상치에 민감하므로 반드시 처리해야 함

 


 

3. 범주형(Categorical) 변수 인코딩

 

머신러닝 모델은 문자열 데이터를 이해하지 못합니다.

범주형 데이터를 수치화된 형태로 변환해야 합니다.

기법설명예시

Label Encoding 정수로 치환 ‘서울’=0, ‘부산’=1
One-Hot Encoding 각 범주를 별도 컬럼으로 변환 ‘서울’=1,0,0 / ‘부산’=0,1,0
Ordinal Encoding 순서가 있는 범주에 정수 부여 ‘Low’=1, ‘Medium’=2, ‘High’=3
많은 범주를 가진 변수는 차원을 급격히 증가시키므로 처리 전략이 중요합니다.

 


 

4. 수치형(Numerical) 변수 정규화/표준화

 

서로 다른 단위를 가진 수치형 변수는 모델 학습에 악영향을 미칩니다.

특히 거리 기반 알고리즘(KNN, SVM 등)에서는 스케일 차이가 성능을 좌우합니다.

기법설명예시

Min-Max Scaling 0~1 범위로 압축 (x - min) / (max - min)
Standard Scaling 평균 0, 분산 1로 변환 (x - μ) / σ
Robust Scaling 중앙값 중심 정규화 이상치에 덜 민감
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_X = scaler.fit_transform(X)

 

 


 

5. 변수 제거 및 파생 변수 생성

 

  • 불필요한 컬럼 제거 (ID, 중복 정보 등)
  • 파생 변수 생성 (비율, 로그 변환, 카테고리 재분류 등)

 

변수 생성은 전처리를 넘어, 모델 성능 향상과 직결되는 창의적 작업입니다.

 


 

데이터 전처리는 AI 모델의 절반이다

항목주요 내용

결측치 제거, 평균/중앙값 대체, 예측 대체
이상치 통계적 기준 또는 도메인 지식으로 필터링
범주형 처리 Label 또는 One-hot Encoding
스케일링 정규화(MinMax), 표준화(Standard), Robust
변수 최적화 불필요한 컬럼 제거, 파생 변수 생성

정제되지 않은 데이터는 성능 저하뿐 아니라 예측 오류로 이어질 수 있으므로, 반드시 사전 정비가 필요합니다.

 

728x90
LIST