eda전략
-
데이터 수집과 EDA 전략 시리즈 – 4화. 변수의 유형과 분석 전략: 수치형과 범주형, 처리 방식이 다르다기술과 산업/AI 2025. 5. 9. 15:31
데이터를 분석할 때 가장 먼저 해야 할 일은 무엇일까?데이터셋을 불러오는 일? 결측치를 확인하는 일? 시각화를 그리는 일?물론 이 모든 작업은 필요하지만,그 전에 반드시 거쳐야 할 단계가 있다.바로 각 변수(피처)가 어떤 '유형'인지 정확히 파악하는 것이다.수치형(numerical) 변수와 범주형(categorical) 변수는처리 방식도, 시각화 방식도, 모델에 주는 영향도 다르다.심지어 변수의 겉모습만 보고 판단할 경우, 분석 전제가 무너질 수도 있다.이번 글에서는 변수의 데이터 타입에 따라 달라지는 분석 전략을 실전 예제와 함께 깊이 있게 살펴본다.1. 왜 변수의 ‘유형’을 구분하는 것이 중요한가?데이터셋에는 다양한 변수들이 존재한다.이 변수들을 올바르게 분류하지 않으면 다음과 같은 문제가 발생할 수..
-
분야별 데이터 수집 전략 가이드 시리즈 - 1화. 오픈데이터 시대의 핵심 무기, 왜 수집 전략이 중요한가기술과 산업/AI 2025. 5. 4. 12:12
AI, 자동화, 데이터 기반 의사결정이 일상이 된 시대. 수많은 데이터 가운데 무엇을, 어떻게 수집할 것인가는 이제 전략 그 자체입니다. 오픈데이터의 시대, ‘접근’보다 ‘전략’이 중요해졌다 2025년 현재, 데이터는 더 이상 소수 기업만의 특권이 아닙니다.정부, 지자체, 민간기업, 글로벌 API 제공처까지 — 수천 개의 데이터셋이 무료 혹은 간단한 인증 절차만으로 누구에게나 공개되고 있습니다. 하지만 단순히 ‘있는 데이터’를 쓰는 것과, ‘목적에 맞는 전략적 수집’을 하는 것의 차이는 큽니다.AI 모델링, 트렌드 분석, 수익형 블로그, 투자 리서치 등 어떤 목적이든 결국 다음 질문이 필요합니다: “우리는 어떤 데이터를, 어떻게 모아야 하는가?” 이 질문에 명확히 답하는 것이 바로 **데이터 수집 전략..