728x90
VIF
-
데이터 수집과 EDA 전략 시리즈 – 5화. 변수 간 관계 분석: 상관관계, 다중공선성, 그리고 인사이트기술과 산업/AI 2025. 5. 12. 20:46
데이터셋의 각 변수는 독립적으로 존재하지 않는다.현실 세계에서 수많은 변수들은 서로 영향을 주고받는다.소득과 소비, 나이와 건강 지표, 광고 노출 수와 구매 전환율처럼 말이다.EDA에서 변수 간 관계를 파악하는 과정은분석의 방향을 결정하고, 모델의 성능을 높이며, 해석 가능성을 높이는 필수 단계다.이번 글에서는 실무 분석가 입장에서상관관계 분석, 다중공선성 탐지, 변수 선택이라는 세 가지 핵심 주제를실전 예제와 함께 깊이 있게 정리한다.1. 상관관계(Correlation)의 본질상관관계란 두 변수 간의 ‘선형적 관계 강도’를 나타내는 지표다.값의 범위는 -1 ~ +1 사이이다.상관계수(r) 해석+1완벽한 양의 상관관계0관계 없음-1완벽한 음의 상관관계예를 들어, 광고비와 매출액은 일반적으로 양의 상관관계..