pandas
-
AI/ML 기반 데이터 분석 시리즈 14화 – ML 학습을 위한 데이터셋 생성 자동화기술과 산업/AI 2025. 8. 7. 18:00
좋아요. 이제 슬슬 본격적인 머신러닝 파이프라인 구축 이야기를 해볼 때가 됐죠.이번엔 모델 학습에 필요한 ‘데이터셋을 자동으로 만드는 방법’,그 중에서도 실무에서 진짜 많이 쓰이는 방식들을 중심으로 이야기해보려 합니다. 데이터 분석을 하다 보면 이런 경험, 누구나 한 번쯤은 있을 거예요. “전처리는 다 했는데, 모델 학습을 돌리려니 또 다른 데이터셋이 필요하네?”“매번 새로운 조건으로 학습 데이터를 다시 만들어야 해서 너무 번거로워…”“파이프라인이 중간에 꼬여서 지난주 결과랑 이번 주 결과가 아예 다르다는데요…?” 사실 모델링은 생각보다 반복 작업이 많습니다.조건 바뀔 때마다 데이터셋을 다시 만들고, 버전 관리하고, 중간 데이터 저장하고…그냥 돌려서 나오는 게 아니라, 학습에 맞는 구조로 데이터를 ‘꾸..
-
AI/ML 기반 데이터 분석 시리즈 3화 - Python 기반 분석 환경 구축과 필수 라이브러리 스택기술과 산업/AI 2025. 5. 14. 19:04
AI 기반 데이터 분석을 시작하려면 무엇보다 먼저 분석 환경을 제대로 구성하는 것이 중요합니다. Python은 AI, 머신러닝, 데이터 분석 모두에서 사실상 표준 언어로 자리잡았으며, 이 생태계의 풍부한 라이브러리는 빠르게 분석 프로젝트를 시작할 수 있도록 돕습니다. 이 글에서는 실무에 즉시 투입 가능한 Python 분석 환경 구성법과, 반드시 익혀야 할 핵심 라이브러리 스택을 정리합니다. Python이 데이터 분석에 적합한 이유 Python은 다음과 같은 이유로 데이터 분석에서 가장 많이 사용되는 언어입니다. 오픈소스이면서 커뮤니티와 생태계가 매우 활발하다수학, 통계, 시각화, 머신러닝, 딥러닝 모두를 포괄하는 풍부한 라이브러리초보자부터 전문가까지 모두 활용 가능한 접근성Jupyter Notebook..
-
데이터 수집과 EDA 전략 시리즈 – 5화. 변수 간 관계 분석: 상관관계, 다중공선성, 그리고 인사이트기술과 산업/AI 2025. 5. 12. 20:46
데이터셋의 각 변수는 독립적으로 존재하지 않는다.현실 세계에서 수많은 변수들은 서로 영향을 주고받는다.소득과 소비, 나이와 건강 지표, 광고 노출 수와 구매 전환율처럼 말이다.EDA에서 변수 간 관계를 파악하는 과정은분석의 방향을 결정하고, 모델의 성능을 높이며, 해석 가능성을 높이는 필수 단계다.이번 글에서는 실무 분석가 입장에서상관관계 분석, 다중공선성 탐지, 변수 선택이라는 세 가지 핵심 주제를실전 예제와 함께 깊이 있게 정리한다.1. 상관관계(Correlation)의 본질상관관계란 두 변수 간의 ‘선형적 관계 강도’를 나타내는 지표다.값의 범위는 -1 ~ +1 사이이다.상관계수(r) 해석+1완벽한 양의 상관관계0관계 없음-1완벽한 음의 상관관계예를 들어, 광고비와 매출액은 일반적으로 양의 상관관계..
-
데이터 수집과 EDA 전략 시리즈 – 3화. 결측치와 이상치 탐지 전략: 데이터의 허점을 읽어내는 기술기술과 산업/AI 2025. 5. 7. 15:57
데이터 분석에서 ‘보이지 않는 것들’이 가장 위험하다.우리가 보지 못하거나, 애써 무시한 누락된 정보와 극단적인 값은모델을 망치고, 분석 결과를 왜곡하며, 나쁜 의사결정으로 이어질 수 있다. 이번 글에서는 데이터 탐색 과정 중 반드시 짚고 넘어가야 할**결측치(Missing Values)**와 **이상치(Outliers)**에 대해실무 분석가의 시선으로 심층적으로 정리한다. 1. 결측치와 이상치는 왜 중요한가? 데이터는 언제나 완전하지 않다.현장에서 수집되는 로그, 설문 응답, 기기 센서 데이터 등은환경적·기술적·인적 요인에 따라 손상되거나 누락되기 쉽다. 📌 결측치(Missing Values) 결측치는 말 그대로 어떤 값이 ‘비어 있는 상태’를 의미한다.주로 다음과 같은 원인으로 발생한다: 사용자..
-
데이터 수집과 EDA 전략 시리즈 – 2화. 탐색적 데이터 분석(EDA)의 정의와 철학기술과 산업/AI 2025. 5. 5. 13:47
데이터를 수집하고 나면, 대부분의 초보 분석가들은 곧바로 모델을 만들고 싶어진다.머신러닝 알고리즘을 적용해 예측을 하고, 결과를 시각화해서 멋진 인사이트를 도출하고 싶기 때문이다.하지만 그 전에 반드시 거쳐야 할 단계가 있다.바로 EDA, 탐색적 데이터 분석(Exploratory Data Analysis)이다. EDA는 단순한 숫자 요약이 아니다.EDA는 데이터와 대화하는 일이며, 데이터에 대한 직관과 통찰을 형성하는 과정이다.이 글에서는 EDA의 철학과 정의, 핵심 기법, 실전 예제, 그리고 분석가가 왜 반드시 이 단계를 거쳐야 하는지를 깊이 있게 다룬다. 1. EDA란 무엇인가? EDA는 1970년대 존 튜키(John Tukey)에 의해 처음 명확히 정의되었다.그는 기존의 가설 검정 중심 통계학이 ..