-
분야별 데이터 수집 전략 가이드 시리즈 - 6화. 통계청 KOSIS에서 인구 및 사회통계 시계열 데이터를 수집하고 분석하는 전략기술과 산업/AI 2025. 5. 14. 16:58728x90
통계청 KOSIS 포털에서 지역별 인구, 출생률, 고령화율 등 사회통계 데이터를 시계열로 수집하고 Python을 통해 분석 및 시각화하는 방법을 소개합니다.
KOSIS란 무엇인가?
KOSIS (Korean Statistical Information Service)은 통계청을 중심으로 각종 정부·지자체·공공기관의 공식 통계를 한 곳에서 확인하고 다운로드할 수 있는 대한민국 대표 통계 포털입니다.
2025년 현재 18만 건 이상의 공식 통계자료가 등록되어 있으며,
- 인구통계
- 고령화율
- 출생률
- 경제활동인구
- 지역별 산업/고용/소득 지표
등을 모두 시계열로 제공하는 국내 최고의 공공 데이터 원천입니다.
KOSIS 데이터 활용 방법
방법설명
웹 다운로드 원하는 통계 테이블을 엑셀 또는 CSV로 다운로드 Open API 일부 데이터는 개발자 API로 제공 (가입 및 신청 필요) 직접 크롤링 HTML 테이블 크롤링 (robots.txt 확인 후 가능) 주의: KOSIS Open API는 신청 승인 후 발급되며 모든 데이터가 API로 제공되지는 않습니다.
대다수 분석가는 CSV 다운로드 + Pandas 분석을 활용합니다.
🔧 KOSIS 통계 찾는 팁
- 검색창에 원하는 통계 키워드 입력
- 예: “서울특별시 인구 추이”, “고령화율”, “출생률” 등
- 자료명 클릭 → 통계표 확인 → 자료 다운로드
- 필요한 경우 연도별 데이터로 필터링 후 CSV 저장
통계코드 및 API 코드 확인: KOSIS 개발자센터 → Open API 통계목록 확인
🧪 Python 실전 예제: KOSIS 인구통계 CSV 파일 분석
1. 예시 데이터:
서울특별시_연도별_인구통계.csv
연도총인구수남자인구수여자인구수
2010 10251000 5042000 5210000 2011 10140000 4998000 5142000 … … … … 2. Python 분석 코드
import pandas as pd import matplotlib.pyplot as plt # CSV 불러오기 df = pd.read_csv("서울특별시_연도별_인구통계.csv", encoding='utf-8') # 연도 정렬 df = df.sort_values(by='연도') # 시계열 그래프 plt.figure(figsize=(10,5)) plt.plot(df['연도'], df['총인구수'] / 1e6, marker='o', label='총인구(백만명)') plt.plot(df['연도'], df['남자인구수'] / 1e6, marker='s', label='남자') plt.plot(df['연도'], df['여자인구수'] / 1e6, marker='^', label='여자') plt.title("서울특별시 연도별 인구 변화") plt.xlabel("연도") plt.ylabel("인구 (백만명)") plt.legend() plt.grid(True) plt.show()
결과: 서울시 총 인구, 남녀 인구 추이를 선 그래프로 직관적으로 확인할 수 있음
📊 추가 분석 아이디어
- 연도별 고령화율 변화 분석 → 사회복지 정책 수립 기반 데이터
- 출생률 감소율 + 인구 피라미드 형태 시각화
- 지역별 경제활동인구 시계열 추세 분석
- 산업별 고용변화 트렌드 분석 (ex. 제조업 vs 서비스업)
⚙️ 실무에서 반드시 체크할 사항
항목설명
최신성 일부 자료는 통계 기준일로부터 1~2개월 지연 행정구역 코드 지역 단위 비교 시 행정구역 코드로 Join 필요 데이터 구조 테이블 구조가 통계마다 다르므로 사전 EDA 필수 누락 데이터 일부 연도/지역 데이터 결측 시 보간 또는 제외 처리
실무 활용 시나리오 예시
분야적용 방식
도시계획 서울, 경기 등 수도권 인구 밀도 분석 ESG 리포트 지역별 고령화율 변화 + 복지 수요 예측 블로그/미디어 인구 감소 현상 인포그래픽 제작 기업 경영 특정 지역의 잠재 시장 인구 통계 조사
다음 회차 예고 – 환경부 공공데이터로 ESG 및 환경 데이터 분석하기
7화에서는 **환경부 공공데이터(환경정보공개시스템 등)**를 활용해
대기질, 수질, 환경측정 데이터 수집 → Python 기반 ESG 분석 자동화 전략을 실습과 함께 다루겠습니다.
728x90'기술과 산업 > AI' 카테고리의 다른 글
Streamlit 실전 마스터 시리즈 3화 – 다양한 사용자 입력 받기 (3) 2025.05.14 AI/ML 기반 데이터 분석 시리즈 3화 - Python 기반 분석 환경 구축과 필수 라이브러리 스택 (0) 2025.05.14 데이터 수집과 EDA 전략 시리즈 – 6화. 데이터 시각화 실전 가이드: matplotlib, seaborn을 활용한 EDA 시각화 (1) 2025.05.14 AI/ML 기반 데이터 분석 시리즈 9화 - 앙상블 학습(Ensemble Learning)과 실전 적용 전략 (1) 2025.05.14 Zonos TTS 활용 시리즈 1화 - Zonos TTS란 무엇인가 차세대 오픈소스 음성합성의 등장 (2) 2025.05.13