728x90
polars
-
AI/ML 기반 데이터 분석 시리즈 14화 – ML 학습을 위한 데이터셋 생성 자동화기술과 산업/AI 2025. 8. 7. 18:00
좋아요. 이제 슬슬 본격적인 머신러닝 파이프라인 구축 이야기를 해볼 때가 됐죠.이번엔 모델 학습에 필요한 ‘데이터셋을 자동으로 만드는 방법’,그 중에서도 실무에서 진짜 많이 쓰이는 방식들을 중심으로 이야기해보려 합니다. 데이터 분석을 하다 보면 이런 경험, 누구나 한 번쯤은 있을 거예요. “전처리는 다 했는데, 모델 학습을 돌리려니 또 다른 데이터셋이 필요하네?”“매번 새로운 조건으로 학습 데이터를 다시 만들어야 해서 너무 번거로워…”“파이프라인이 중간에 꼬여서 지난주 결과랑 이번 주 결과가 아예 다르다는데요…?” 사실 모델링은 생각보다 반복 작업이 많습니다.조건 바뀔 때마다 데이터셋을 다시 만들고, 버전 관리하고, 중간 데이터 저장하고…그냥 돌려서 나오는 게 아니라, 학습에 맞는 구조로 데이터를 ‘꾸..