seaborn
-
데이터 수집과 EDA 전략 시리즈 – 6화. 데이터 시각화 실전 가이드: matplotlib, seaborn을 활용한 EDA 시각화기술과 산업/AI 2025. 5. 14. 16:26
데이터는 말이 없다.하지만 데이터는 시각화라는 ‘언어’를 통해 이야기할 수 있다.탐색적 데이터 분석(EDA) 과정에서 **데이터를 보는 것(Visualization)**은숫자만으로는 결코 보이지 않는 패턴, 트렌드, 이상치를 직관적으로 보여준다. 이번 글에서는 Python의 대표적 시각화 도구인matplotlib, seaborn을 중심으로EDA에서 활용할 수 있는 다양한 실전 기법을 심층적으로 정리한다. 1. 왜 EDA에서 시각화가 필수인가? EDA의 목적은 데이터를 ‘이해’하는 것이다.숫자와 표로는 숨겨진 구조를 놓칠 수 있다.시각화는 데이터 분석의 다음과 같은 역할을 한다: 변수 분포, 밀도 파악이상치(Outlier) 감지변수 간 상관성 탐색그룹 간 차이 시각적 비교 또한 데이터 전문가와 비전문가(..
-
데이터 수집과 EDA 전략 시리즈 – 5화. 변수 간 관계 분석: 상관관계, 다중공선성, 그리고 인사이트기술과 산업/AI 2025. 5. 12. 20:46
데이터셋의 각 변수는 독립적으로 존재하지 않는다.현실 세계에서 수많은 변수들은 서로 영향을 주고받는다.소득과 소비, 나이와 건강 지표, 광고 노출 수와 구매 전환율처럼 말이다.EDA에서 변수 간 관계를 파악하는 과정은분석의 방향을 결정하고, 모델의 성능을 높이며, 해석 가능성을 높이는 필수 단계다.이번 글에서는 실무 분석가 입장에서상관관계 분석, 다중공선성 탐지, 변수 선택이라는 세 가지 핵심 주제를실전 예제와 함께 깊이 있게 정리한다.1. 상관관계(Correlation)의 본질상관관계란 두 변수 간의 ‘선형적 관계 강도’를 나타내는 지표다.값의 범위는 -1 ~ +1 사이이다.상관계수(r) 해석+1완벽한 양의 상관관계0관계 없음-1완벽한 음의 상관관계예를 들어, 광고비와 매출액은 일반적으로 양의 상관관계..
-
데이터 수집과 EDA 전략 시리즈 – 2화. 탐색적 데이터 분석(EDA)의 정의와 철학기술과 산업/AI 2025. 5. 5. 13:47
데이터를 수집하고 나면, 대부분의 초보 분석가들은 곧바로 모델을 만들고 싶어진다.머신러닝 알고리즘을 적용해 예측을 하고, 결과를 시각화해서 멋진 인사이트를 도출하고 싶기 때문이다.하지만 그 전에 반드시 거쳐야 할 단계가 있다.바로 EDA, 탐색적 데이터 분석(Exploratory Data Analysis)이다. EDA는 단순한 숫자 요약이 아니다.EDA는 데이터와 대화하는 일이며, 데이터에 대한 직관과 통찰을 형성하는 과정이다.이 글에서는 EDA의 철학과 정의, 핵심 기법, 실전 예제, 그리고 분석가가 왜 반드시 이 단계를 거쳐야 하는지를 깊이 있게 다룬다. 1. EDA란 무엇인가? EDA는 1970년대 존 튜키(John Tukey)에 의해 처음 명확히 정의되었다.그는 기존의 가설 검정 중심 통계학이 ..