-
LLM 학습 시리즈 2화 – LLM을 똑똑하게 만드는 법: 감독학습(SFT)과 그 한계기술과 산업/AI 2025. 5. 23. 08:30728x90
LLM이 인간처럼 질문에 답하고 명령을 수행하려면 사전학습만으로는 부족합니다. 이 글에서는 '감독학습(Supervised Fine-Tuning)'의 역할과 그 구조적 한계를 깊이 있게 다룹니다.
LLM이 아무리 많은 텍스트를 학습했더라도, 단순히 '많이 읽은 AI'일 뿐입니다.
실제 사용자의 명령을 이해하고 그에 맞춰 정확한 반응을 하기 위해서는 추가 학습이 필요합니다.
바로 그 역할을 하는 것이 감독학습(Supervised Fine-Tuning, SFT) 입니다.SFT란 무엇인가? 쉽게 설명하면…
SFT는 “이 입력에는 이렇게 답하라”는 정답지를 주고 모델을 다시 훈련시키는 과정입니다.
예를 들어 아래와 같은 데이터로 구성됩니다:[입력] 다음 문장을 영어로 번역하세요: "나는 밥을 먹었다." [출력] I ate a meal.
수많은 이런 예시를 보고, 모델은 인간처럼 "지시를 따르는 법"을 배우게 됩니다.
이 방식은 특히 Instruction Tuning이라는 이름으로도 불리며, 최근에는 LLaMA, FLAN-T5, Mistral 등 다양한 모델이 이 방법을 사용하고 있습니다.SFT 데이터는 어떻게 구성될까?
보통 SFT에 쓰이는 데이터는 다음 세 가지 특징을 가집니다:
- 입출력 쌍의 품질이 매우 중요함
- 인간이 직접 만든 고품질 QA 데이터가 선호됨
- 예: Stanford Alpaca, Dolly 데이터셋, ShareGPT 수집본
- 도메인별 미세조정이 가능함
- 예: 법률 문서 요약 전용 SFT, 의료 진단 SFT 등
- Instruction 기반 포맷을 통해 일반화 성능을 높임
- "이 문장을 분석해줘"보다는 "이 문장에서 감정이 드러나는 구절을 찾아줘"처럼 명확한 지시문 구조
SFT의 장점: 모델이 명령을 이해한다
SFT는 단순한 언어 예측 모델을 ‘사용자 친화적 에이전트’로 바꾸는 중요한 전환점입니다.
이 과정을 통해 모델은 다음과 같은 능력을 갖추게 됩니다:- 문장 내 의미 해석 능력 향상
- 복잡한 지시문을 분석하고 수행
- 태스크 전환이 가능 (요약, 번역, 설명 등)
그러나… SFT에는 분명한 한계가 있다
1. 단편적인 상황에만 최적화됨
SFT는 훈련된 태스크 외의 상황에 취약합니다.
즉, 데이터셋에 없는 질문에는 무능하거나 부정확한 답변을 할 수 있습니다.2. 부정적인 예시 학습이 어렵다
예를 들어, "이런 답변은 위험하니 하지 말 것"이라는 반례 데이터를 넣는 것이 어렵습니다.3. 다양성과 창의성의 손실
정답에만 집중한 학습은 종종 모델의 다양한 응답 가능성을 제한합니다.
이는 생성형 AI에서 '창의성'을 요구하는 응용에는 치명적일 수 있습니다.요즘은 어떻게 보완하고 있을까?
현업에서는 이러한 한계를 보완하기 위해 다음의 보완 학습 전략이 적용되고 있습니다:
- RLHF (Reinforcement Learning with Human Feedback)
→ 보상 모델을 통해 바람직한 응답을 강화함 - Preference Ranking / Pairwise Comparison
→ 여러 응답 중 어떤 것이 더 나은지 인간이 순위를 매겨 학습 - Constitutional AI
→ 사전 정의된 'AI 헌법'을 따라 자가 피드백하며 학습
이제 우리는 단순한 SFT를 넘어서, 모델이 **'생각하고 판단하는 방식까지 교정하는 단계'**로 나아가고 있는 셈입니다.
마무리
감독학습(SFT)은 LLM이 단순한 언어 예측기에서 유저 인터페이스의 일원이 되는 길목입니다.
하지만 이 방식만으로는 충분하지 않으며, 응답 품질을 높이기 위한 후속 조치가 반드시 필요합니다.그래서 다음 편에서는 이 SFT의 한계를 보완하는 가장 진화된 학습법인 RLHF에 대해 깊이 있게 다뤄보겠습니다.
728x90'기술과 산업 > AI' 카테고리의 다른 글
AI/ML 기반 데이터 분석 시리즈 10화 - 하이퍼파라미터 튜닝 전략과 실전 최적화 기법 (2) 2025.05.23 LLM 학습 시리즈 3화 – 인간다운 AI를 만드는 마지막 퍼즐: RLHF 완전 이해 (1) 2025.05.23 LLM 학습 시리즈 1화 – LLM 학습의 시작: 사전학습(Pretraining)이란 무엇인가? (5) 2025.05.22 LoRA 기반 LLaMA 파인튜닝 실습 가이드 (2) 2025.05.22 LoRA 실무 적용 가이드 – Hugging Face 기반 활용법과 주의사항 (1) 2025.05.22 - 입출력 쌍의 품질이 매우 중요함