기술과 산업/AI
데이터 과학 워크플로우: R vs Python 비교
B컷개발자
2025. 5. 21. 13:01
728x90
단계 공통 목적 R 워크플로우 Python 워크플로우
| Import (데이터 불러오기) | CSV, Excel, DB 등 외부 데이터 가져오기 | readr, readxl, DBI, rvest | pandas.read_csv(), read_excel(), SQLAlchemy, requests, beautifulsoup |
| Tidy/Transform (정제 및 변형) | 넓은 포맷 → 긴 포맷, 결측치 처리, 텍스트/시간 처리 | tidyr, dplyr, lubridate, stringr, forcats | pandas, numpy, category_encoders, fancyimpute |
| Visualize (시각화) | 데이터의 패턴과 이상값을 시각적으로 탐색 | ggplot2, plotly, reactable | matplotlib, seaborn, plotly, plotnine |
| Model (모델링) | 예측 또는 분류 모델 학습 및 평가 | tidymodels, parsnip, rsample, tune, yardstick | scikit-learn, statsmodels, pycaret, tensorflow/keras |
| Communicate (결과 전달) | 보고서, 웹 앱, API 형태로 전달 | RMarkdown, Shiny, Plumber, Quarto | Jupyter Notebook, Streamlit, Dash, Flask, FastAPI |
초보자 팁:
- R은 ggplot2, tidyverse처럼 “읽기 쉬운 문법”과 “표현에 강함”
- Python은 “자동화 및 배포에 강함”, 라이브러리 다양성이 압도적
Data_Science_With_R_Workflow.pdf
1.68MB
Data_Science_With_Python_Workflow.pdf
1.50MB
segmentation_clustering.pdf
0.77MB
regression.pdf
1.18MB
728x90