Eda
-
데이터 수집과 EDA 전략 시리즈 – 6화. 데이터 시각화 실전 가이드: matplotlib, seaborn을 활용한 EDA 시각화기술과 산업/AI 2025. 5. 14. 16:26
데이터는 말이 없다.하지만 데이터는 시각화라는 ‘언어’를 통해 이야기할 수 있다.탐색적 데이터 분석(EDA) 과정에서 **데이터를 보는 것(Visualization)**은숫자만으로는 결코 보이지 않는 패턴, 트렌드, 이상치를 직관적으로 보여준다. 이번 글에서는 Python의 대표적 시각화 도구인matplotlib, seaborn을 중심으로EDA에서 활용할 수 있는 다양한 실전 기법을 심층적으로 정리한다. 1. 왜 EDA에서 시각화가 필수인가? EDA의 목적은 데이터를 ‘이해’하는 것이다.숫자와 표로는 숨겨진 구조를 놓칠 수 있다.시각화는 데이터 분석의 다음과 같은 역할을 한다: 변수 분포, 밀도 파악이상치(Outlier) 감지변수 간 상관성 탐색그룹 간 차이 시각적 비교 또한 데이터 전문가와 비전문가(..
-
AI/ML 기반 데이터 분석 시리즈 4화 - 데이터 수집과 탐색적 분석(EDA)의 전략과 실전기술과 산업/AI 2025. 5. 4. 11:51
데이터 분석 프로젝트의 품질은 데이터를 어떻게 ‘얻고’, ‘이해하고’, ‘정제했는지’에서 결정됩니다.그 시작점이 바로 데이터 수집(Data Acquisition) 과 탐색적 데이터 분석(EDA, Exploratory Data Analysis) 입니다.이 글에서는 AI/ML 기반 분석 프로젝트를 위한 데이터 수집 전략과 EDA 흐름을 실전 중심으로 정리합니다. 데이터는 어디서 오는가: 수집 채널의 종류 분석 대상 데이터는 다양한 방식으로 수집할 수 있습니다. 주요 채널은 다음과 같습니다. 1. 공개 데이터셋 Kaggle Datasets, UCI ML Repository, Data.gov, 공공데이터포털학습, 연구, 프로토타이핑에 적합 2. API 기반 수집 REST API, GraphQL, Web A..