LLM 학습 시리즈 2화 – LLM을 똑똑하게 만드는 법: 감독학습(SFT)과 그 한계

기술과 산업/AI

LLM 학습 시리즈 2화 – LLM을 똑똑하게 만드는 법: 감독학습(SFT)과 그 한계

B컷개발자 2025. 5. 23. 08:30

728x90

LLM이 인간처럼 질문에 답하고 명령을 수행하려면 사전학습만으로는 부족합니다. 이 글에서는 '감독학습(Supervised Fine-Tuning)'의 역할과 그 구조적 한계를 깊이 있게 다룹니다.

LLM이 아무리 많은 텍스트를 학습했더라도, 단순히 '많이 읽은 AI'일 뿐입니다.
실제 사용자의 명령을 이해하고 그에 맞춰 정확한 반응을 하기 위해서는 추가 학습이 필요합니다.
바로 그 역할을 하는 것이 감독학습(Supervised Fine-Tuning, SFT) 입니다.

SFT란 무엇인가? 쉽게 설명하면…

SFT는 “이 입력에는 이렇게 답하라”는 정답지를 주고 모델을 다시 훈련시키는 과정입니다.
예를 들어 아래와 같은 데이터로 구성됩니다:

[입력] 다음 문장을 영어로 번역하세요: "나는 밥을 먹었다."  
[출력] I ate a meal.

수많은 이런 예시를 보고, 모델은 인간처럼 "지시를 따르는 법"을 배우게 됩니다.
이 방식은 특히 Instruction Tuning이라는 이름으로도 불리며, 최근에는 LLaMA, FLAN-T5, Mistral 등 다양한 모델이 이 방법을 사용하고 있습니다.

SFT 데이터는 어떻게 구성될까?

보통 SFT에 쓰이는 데이터는 다음 세 가지 특징을 가집니다:

입출력 쌍의 품질이 매우 중요함
- 인간이 직접 만든 고품질 QA 데이터가 선호됨
- 예: Stanford Alpaca, Dolly 데이터셋, ShareGPT 수집본
도메인별 미세조정이 가능함
- 예: 법률 문서 요약 전용 SFT, 의료 진단 SFT 등
Instruction 기반 포맷을 통해 일반화 성능을 높임
- "이 문장을 분석해줘"보다는 "이 문장에서 감정이 드러나는 구절을 찾아줘"처럼 명확한 지시문 구조

SFT의 장점: 모델이 명령을 이해한다

SFT는 단순한 언어 예측 모델을 ‘사용자 친화적 에이전트’로 바꾸는 중요한 전환점입니다.
이 과정을 통해 모델은 다음과 같은 능력을 갖추게 됩니다:

문장 내 의미 해석 능력 향상
복잡한 지시문을 분석하고 수행
태스크 전환이 가능 (요약, 번역, 설명 등)

그러나… SFT에는 분명한 한계가 있다

1. 단편적인 상황에만 최적화됨
SFT는 훈련된 태스크 외의 상황에 취약합니다.
즉, 데이터셋에 없는 질문에는 무능하거나 부정확한 답변을 할 수 있습니다.

2. 부정적인 예시 학습이 어렵다
예를 들어, "이런 답변은 위험하니 하지 말 것"이라는 반례 데이터를 넣는 것이 어렵습니다.

3. 다양성과 창의성의 손실
정답에만 집중한 학습은 종종 모델의 다양한 응답 가능성을 제한합니다.
이는 생성형 AI에서 '창의성'을 요구하는 응용에는 치명적일 수 있습니다.

요즘은 어떻게 보완하고 있을까?

현업에서는 이러한 한계를 보완하기 위해 다음의 보완 학습 전략이 적용되고 있습니다:

RLHF (Reinforcement Learning with Human Feedback)
→ 보상 모델을 통해 바람직한 응답을 강화함
Preference Ranking / Pairwise Comparison
→ 여러 응답 중 어떤 것이 더 나은지 인간이 순위를 매겨 학습
Constitutional AI
→ 사전 정의된 'AI 헌법'을 따라 자가 피드백하며 학습

이제 우리는 단순한 SFT를 넘어서, 모델이 **'생각하고 판단하는 방식까지 교정하는 단계'**로 나아가고 있는 셈입니다.

마무리

감독학습(SFT)은 LLM이 단순한 언어 예측기에서 유저 인터페이스의 일원이 되는 길목입니다.
하지만 이 방식만으로는 충분하지 않으며, 응답 품질을 높이기 위한 후속 조치가 반드시 필요합니다.

그래서 다음 편에서는 이 SFT의 한계를 보완하는 가장 진화된 학습법인 RLHF에 대해 깊이 있게 다뤄보겠습니다.

728x90