AI/데이터
-
분야별 데이터 수집 전략 가이드 시리즈 - 2화. 공공데이터포털 완전 정복: API 인증부터 실전 수집까지AI/데이터 2025. 5. 5. 13:50
공공데이터포털(data.go.kr)을 통해 API 인증을 받고, 인구·기후·부동산 등 주요 데이터를 Python으로 실전 수집하는 전략을 알려드립니다. 대한민국 오픈데이터의 허브, 공공데이터포털 공공데이터포털(data.go.kr)은 대한민국 행정 각 부처, 지자체, 공공기관이 보유한 데이터를 통합 제공하는 국가 플랫폼입니다.2025년 현재 45,000건 이상의 API, CSV, XML 형식 데이터가 등록돼 있으며, API 기반 실시간 수집이 가능한 항목만 해도 7,000건이 넘습니다. 실제로 AI 학습용, 블로그 콘텐츠 자동화, 정책 리포트 작성, 트렌드 분석 등 다양한 실무에 직접 적용되고 있습니다. 공공데이터포털 활용 시 주의할 점항목설명라이선스대부분 공공누리 제1~4유형에 따름. 상업적 사용 시..
-
데이터 수집과 EDA 전략 시리즈 – 2화. 탐색적 데이터 분석(EDA)의 정의와 철학AI/데이터 2025. 5. 5. 13:47
데이터를 수집하고 나면, 대부분의 초보 분석가들은 곧바로 모델을 만들고 싶어진다.머신러닝 알고리즘을 적용해 예측을 하고, 결과를 시각화해서 멋진 인사이트를 도출하고 싶기 때문이다.하지만 그 전에 반드시 거쳐야 할 단계가 있다.바로 EDA, 탐색적 데이터 분석(Exploratory Data Analysis)이다. EDA는 단순한 숫자 요약이 아니다.EDA는 데이터와 대화하는 일이며, 데이터에 대한 직관과 통찰을 형성하는 과정이다.이 글에서는 EDA의 철학과 정의, 핵심 기법, 실전 예제, 그리고 분석가가 왜 반드시 이 단계를 거쳐야 하는지를 깊이 있게 다룬다. 1. EDA란 무엇인가? EDA는 1970년대 존 튜키(John Tukey)에 의해 처음 명확히 정의되었다.그는 기존의 가설 검정 중심 통계학이 ..
-
AI/ML 기반 데이터 분석 시리즈 5화 - 결측치와 이상치 처리 전략: 정제된 데이터를 만드는 기술AI/데이터 2025. 5. 5. 13:42
AI/ML 분석에서 가장 자주 발생하면서도 모델의 성능에 치명적인 영향을 미치는 요인이 바로 **결측치(missing values)**와 **이상치(outliers)**입니다.이번 글에서는 단순한 결측치 제거를 넘어서, 데이터의 의미를 훼손하지 않으면서도 정제력을 높이는 처리 전략을 심화된 예제와 함께 정리합니다. 1. 결측치(Missing Values)의 본질적 이해 1.1 결측의 유형유형설명예시MCAR (완전 무작위)데이터가 무작위로 누락설문 응답자가 실수로 빈칸 남김MAR (조건부 무작위)다른 변수에 따라 결측 발생여성보다 남성이 소득 항목에 응답하지 않음MNAR (무작위 아님)값 자체가 결측의 원인고소득자가 민감해서 소득을 아예 작성 안 함MNAR일수록 처리에 주의가 필요하며, 데이터 편향을 ..
-
분야별 데이터 수집 전략 가이드 시리즈 - 1화. 오픈데이터 시대의 핵심 무기, 왜 수집 전략이 중요한가AI/데이터 2025. 5. 4. 12:12
메타 설명: AI, 자동화, 데이터 기반 의사결정이 일상이 된 시대. 수많은 데이터 가운데 무엇을, 어떻게 수집할 것인가는 이제 전략 그 자체입니다. 오픈데이터의 시대, ‘접근’보다 ‘전략’이 중요해졌다 2025년 현재, 데이터는 더 이상 소수 기업만의 특권이 아닙니다.정부, 지자체, 민간기업, 글로벌 API 제공처까지 — 수천 개의 데이터셋이 무료 혹은 간단한 인증 절차만으로 누구에게나 공개되고 있습니다. 하지만 단순히 ‘있는 데이터’를 쓰는 것과, ‘목적에 맞는 전략적 수집’을 하는 것의 차이는 큽니다.AI 모델링, 트렌드 분석, 수익형 블로그, 투자 리서치 등 어떤 목적이든 결국 다음 질문이 필요합니다: “우리는 어떤 데이터를, 어떻게 모아야 하는가?” 이 질문에 명확히 답하는 것이 바로 **데이..
-
데이터 수집과 EDA 전략 시리즈 – 1화. 데이터 수집의 전략: 출처, 방식, 고려사항AI/데이터 2025. 5. 4. 12:10
데이터 분석을 공부하면서도 수집에 대한 고민은 뒷전으로 미뤄두는 경우가 많다.하지만 실무 현장에서는 이 ‘수집’이 분석 성패를 좌우한다.분석 목적에 맞는 데이터를 ‘어디서’, ‘어떻게’, ‘합법적으로’ 확보하느냐는그 자체로 전략이며 기술이다. 이번 글에서는 분석가가 데이터를 얻을 수 있는 실제 출처 목록과 수집 방식,그리고 수집 시 반드시 고려해야 할 핵심 사항들을 실전 예제와 함께 다룬다. 데이터 수집의 기본: 단순한 다운로드가 아닌 ‘설계’다 수집은 단순히 CSV 파일을 다운로드하는 행위로 끝나지 않는다.‘왜 이 데이터를, 이 방식으로 가져왔는가?’에 대한 명확한 기준과 목적이 있어야 한다.즉, 수집은 분석의 전초전이자 설계다. 1. 데이터를 얻을 수 있는 진짜 장소들 (2025년 최신 정리) 분..