AI 모델 만들기 시리즈 2화 – 지도학습, 비지도학습, 강화학습… 언제 어디에 쓰일까?
AI 모델을 만든다는 것은 곧 "기계에게 학습을 시킨다"는 의미입니다.
하지만 학습이라고 다 같은 학습이 아닙니다. 어떤 데이터를 가지고, 어떤 문제를 풀고 싶은지에 따라 학습 방식이 완전히 달라지기 때문입니다.
이번 글에서는 AI의 대표적인 세 가지 학습 방식 – **지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)**의 개념과 차이를 실제 사례 중심으로 설명합니다.
왜 학습 방식을 구분해야 할까?
AI 개발 현장에서는 문제 정의가 매우 중요합니다.
‘무엇을 예측할 것인가?’ ‘정답은 존재하는가?’ ‘데이터에 라벨이 있는가?’와 같은 질문에 따라 사용하는 학습 방식이 달라집니다.
1. 지도학습 (Supervised Learning)
정답이 있는 문제를 풀고 싶다면, 지도학습이 답입니다.
개념
지도학습은 입력(Input)과 그에 대응하는 출력(Output), 즉 정답(Label)이 명확하게 주어진 데이터를 사용합니다.
모델은 이런 데이터를 기반으로 입력과 출력 간의 관계를 학습합니다.
실제 예시
- 이메일이 스팸인지 아닌지 분류
- 고객의 대출 상환 여부 예측
- MRI 이미지로 암 여부 분류
- 날씨 데이터를 통해 내일의 기온 예측
사용 알고리즘
- 선형 회귀(Linear Regression)
- 로지스틱 회귀(Logistic Regression)
- 의사결정트리, 랜덤포레스트
- SVM, KNN, XGBoost
- 인공신경망(ANN), CNN, LSTM 등 딥러닝 기법
특성
항목 설명
라벨 있음 | 정답이 있는 데이터가 필수 |
성능 측정 용이 | 정확도, 정밀도, F1-score 등으로 정량 평가 가능 |
산업 적용 폭 넓음 | 금융, 의료, 제조, 마케팅 등 거의 모든 산업에 적용 가능 |
정답이 존재하는 문제라면, 무조건 지도학습부터 고려합니다.
2. 비지도학습 (Unsupervised Learning)
라벨 없는 데이터를 분석해야 할 때, 비지도학습이 빛을 발합니다.
개념
비지도학습은 정답이 없는 데이터로부터 의미 있는 패턴, 군집, 구조를 찾아내는 방식입니다.
쉽게 말해 "기계가 스스로 데이터 안에서 공통점을 찾아내도록" 하는 것입니다.
실제 예시
- 고객 군집화(마케팅 세분화)
- 문서/뉴스 자동 분류
- 차원 축소 후 시각화(PCA, t-SNE)
- 이상치 탐지(이상 거래, 부정 사용 감지 등)
사용 알고리즘
- K-평균 클러스터링(K-Means)
- DBSCAN
- PCA, ICA (차원 축소)
- Autoencoder 기반 이상 탐지 모델
특성
항목 설명
라벨 없음 | 입력만 존재하고 정답은 없음 |
군집/패턴 중심 | 데이터의 구조나 특성을 파악 |
평가 어려움 | 모델의 정답이 없기에 성능을 정량적으로 측정하기 어려움 |
데이터는 많지만 정답이 없거나, 고객 세그먼트를 나누고 싶다면 비지도학습을 먼저 시도해보세요.
3. 강화학습 (Reinforcement Learning)
시도하고 실패하며 스스로 배우는 AI – 강화학습은 전략적 의사결정에 특화된 학습 방식입니다.
개념
강화학습은 환경(Environment)과 상호작용을 통해 보상(Reward)을 최대화하는 방향으로 학습하는 방식입니다.
모델(Agent)은 다양한 행동(Action)을 시도하며, 성공적인 결과에 더 큰 보상을 주는 시스템을 통해 최적 전략을 찾아냅니다.
실제 예시
- 알파고처럼 바둑에서 이기기
- 로봇이 장애물을 피해서 목적지 도달
- 자율주행 자동차의 차선 변경
- 광고 클릭 최적화 (CTR 향상)
- 자동 주식 매매 전략
사용 알고리즘
- Q-Learning, SARSA
- DQN (Deep Q Network)
- Policy Gradient, A3C, PPO 등 심화 딥러닝 기반 강화학습
특성
항목 설명
보상 중심 | 정답 대신 보상 시스템을 기반으로 학습 |
순차적 의사결정 | 단일 예측보다 ‘시나리오 전체’를 고려 |
고난도 시뮬레이션 필요 | 환경 구성 및 시뮬레이터가 중요 |
강화학습은 데이터를 직접 주는 게 아니라, 환경과의 상호작용을 통해 스스로 배우는 방식입니다.
실제 문제에 적용하기 – 어떻게 판단해야 할까?
질문 추천 학습 방식 이유
정답(라벨)이 있는가? | 지도학습 | 예측 문제에 최적 |
데이터 구조를 이해하고 싶은가? | 비지도학습 | 분포, 군집 구조 파악 |
결과를 내기까지 여러 단계가 필요한가? | 강화학습 | 전략 최적화 문제에 적합 |
예측한 값이 즉시 피드백을 받을 수 있는가? | 강화학습 | 보상 시스템이 존재할 때 |
예시:
- “고객의 이탈을 예측하고 싶다” → 지도학습
- “고객을 유형별로 나누고 싶다” → 비지도학습
- “고객의 장기적인 행동 전략을 유도하고 싶다” → 강화학습
실전 팁: 복합적 문제에는 여러 학습 방식을 혼합하기도
- 지도 + 비지도: 고객 세그먼트별 예측 모델
- 비지도 + 강화학습: 특징을 먼저 추출하고 전략 학습
- 사전 훈련 모델 + 강화학습: NLP에서 대화형 AI 학습 시 활용
핵심 정리
항목 지도학습 비지도학습 강화학습
데이터 라벨 | 있음 | 없음 | 없음 (보상 있음) |
문제 형태 | 예측 | 군집/구조 파악 | 전략적 결정 |
예시 | 이메일 분류 | 고객 세분화 | 바둑, 자율주행 |
모델 성격 | 지도 기반 | 탐색 기반 | 상호작용 기반 |