728x90
knnimputer
-
AI/ML 기반 데이터 분석 시리즈 5화 - 결측치와 이상치 처리 전략: 정제된 데이터를 만드는 기술기술과 산업/AI 2025. 5. 5. 13:42
AI/ML 분석에서 가장 자주 발생하면서도 모델의 성능에 치명적인 영향을 미치는 요인이 바로 **결측치(missing values)**와 **이상치(outliers)**입니다.이번 글에서는 단순한 결측치 제거를 넘어서, 데이터의 의미를 훼손하지 않으면서도 정제력을 높이는 처리 전략을 심화된 예제와 함께 정리합니다. 1. 결측치(Missing Values)의 본질적 이해 1.1 결측의 유형유형설명예시MCAR (완전 무작위)데이터가 무작위로 누락설문 응답자가 실수로 빈칸 남김MAR (조건부 무작위)다른 변수에 따라 결측 발생여성보다 남성이 소득 항목에 응답하지 않음MNAR (무작위 아님)값 자체가 결측의 원인고소득자가 민감해서 소득을 아예 작성 안 함MNAR일수록 처리에 주의가 필요하며, 데이터 편향을 ..