LLM 학습 시리즈 2화 – LLM을 똑똑하게 만드는 법: 감독학습(SFT)과 그 한계
LLM이 인간처럼 질문에 답하고 명령을 수행하려면 사전학습만으로는 부족합니다. 이 글에서는 '감독학습(Supervised Fine-Tuning)'의 역할과 그 구조적 한계를 깊이 있게 다룹니다.
LLM이 아무리 많은 텍스트를 학습했더라도, 단순히 '많이 읽은 AI'일 뿐입니다.
실제 사용자의 명령을 이해하고 그에 맞춰 정확한 반응을 하기 위해서는 추가 학습이 필요합니다.
바로 그 역할을 하는 것이 감독학습(Supervised Fine-Tuning, SFT) 입니다.
SFT란 무엇인가? 쉽게 설명하면…
SFT는 “이 입력에는 이렇게 답하라”는 정답지를 주고 모델을 다시 훈련시키는 과정입니다.
예를 들어 아래와 같은 데이터로 구성됩니다:
[입력] 다음 문장을 영어로 번역하세요: "나는 밥을 먹었다."
[출력] I ate a meal.
수많은 이런 예시를 보고, 모델은 인간처럼 "지시를 따르는 법"을 배우게 됩니다.
이 방식은 특히 Instruction Tuning이라는 이름으로도 불리며, 최근에는 LLaMA, FLAN-T5, Mistral 등 다양한 모델이 이 방법을 사용하고 있습니다.
SFT 데이터는 어떻게 구성될까?
보통 SFT에 쓰이는 데이터는 다음 세 가지 특징을 가집니다:
- 입출력 쌍의 품질이 매우 중요함
- 인간이 직접 만든 고품질 QA 데이터가 선호됨
- 예: Stanford Alpaca, Dolly 데이터셋, ShareGPT 수집본
- 도메인별 미세조정이 가능함
- 예: 법률 문서 요약 전용 SFT, 의료 진단 SFT 등
- Instruction 기반 포맷을 통해 일반화 성능을 높임
- "이 문장을 분석해줘"보다는 "이 문장에서 감정이 드러나는 구절을 찾아줘"처럼 명확한 지시문 구조
SFT의 장점: 모델이 명령을 이해한다
SFT는 단순한 언어 예측 모델을 ‘사용자 친화적 에이전트’로 바꾸는 중요한 전환점입니다.
이 과정을 통해 모델은 다음과 같은 능력을 갖추게 됩니다:
- 문장 내 의미 해석 능력 향상
- 복잡한 지시문을 분석하고 수행
- 태스크 전환이 가능 (요약, 번역, 설명 등)
그러나… SFT에는 분명한 한계가 있다
1. 단편적인 상황에만 최적화됨
SFT는 훈련된 태스크 외의 상황에 취약합니다.
즉, 데이터셋에 없는 질문에는 무능하거나 부정확한 답변을 할 수 있습니다.
2. 부정적인 예시 학습이 어렵다
예를 들어, "이런 답변은 위험하니 하지 말 것"이라는 반례 데이터를 넣는 것이 어렵습니다.
3. 다양성과 창의성의 손실
정답에만 집중한 학습은 종종 모델의 다양한 응답 가능성을 제한합니다.
이는 생성형 AI에서 '창의성'을 요구하는 응용에는 치명적일 수 있습니다.
요즘은 어떻게 보완하고 있을까?
현업에서는 이러한 한계를 보완하기 위해 다음의 보완 학습 전략이 적용되고 있습니다:
- RLHF (Reinforcement Learning with Human Feedback)
→ 보상 모델을 통해 바람직한 응답을 강화함 - Preference Ranking / Pairwise Comparison
→ 여러 응답 중 어떤 것이 더 나은지 인간이 순위를 매겨 학습 - Constitutional AI
→ 사전 정의된 'AI 헌법'을 따라 자가 피드백하며 학습
이제 우리는 단순한 SFT를 넘어서, 모델이 **'생각하고 판단하는 방식까지 교정하는 단계'**로 나아가고 있는 셈입니다.
마무리
감독학습(SFT)은 LLM이 단순한 언어 예측기에서 유저 인터페이스의 일원이 되는 길목입니다.
하지만 이 방식만으로는 충분하지 않으며, 응답 품질을 높이기 위한 후속 조치가 반드시 필요합니다.
그래서 다음 편에서는 이 SFT의 한계를 보완하는 가장 진화된 학습법인 RLHF에 대해 깊이 있게 다뤄보겠습니다.