기술과 산업/AI

데이터 과학 워크플로우: R vs Python 비교

B컷개발자 2025. 5. 21. 13:01
728x90

단계 공통 목적 R 워크플로우 Python 워크플로우

Import (데이터 불러오기) CSV, Excel, DB 등 외부 데이터 가져오기 readr, readxl, DBI, rvest pandas.read_csv(), read_excel(), SQLAlchemy, requests, beautifulsoup
Tidy/Transform (정제 및 변형) 넓은 포맷 → 긴 포맷, 결측치 처리, 텍스트/시간 처리 tidyr, dplyr, lubridate, stringr, forcats pandas, numpy, category_encoders, fancyimpute
Visualize (시각화) 데이터의 패턴과 이상값을 시각적으로 탐색 ggplot2, plotly, reactable matplotlib, seaborn, plotly, plotnine
Model (모델링) 예측 또는 분류 모델 학습 및 평가 tidymodels, parsnip, rsample, tune, yardstick scikit-learn, statsmodels, pycaret, tensorflow/keras
Communicate (결과 전달) 보고서, 웹 앱, API 형태로 전달 RMarkdown, Shiny, Plumber, Quarto Jupyter Notebook, Streamlit, Dash, Flask, FastAPI

 

초보자 팁:

  • R은 ggplot2, tidyverse처럼 “읽기 쉬운 문법”과 “표현에 강함”
  • Python은 “자동화 및 배포에 강함”, 라이브러리 다양성이 압도적

Data_Science_With_R_Workflow.pdf
1.68MB
Data_Science_With_Python_Workflow.pdf
1.50MB
segmentation_clustering.pdf
0.77MB
regression.pdf
1.18MB

728x90