LLM 학습 시리즈 3화 – 인간다운 AI를 만드는 마지막 퍼즐: RLHF 완전 이해
LLM이 사람처럼 말하고 판단하려면 무엇이 필요할까? 이 글에서는 ‘인간 피드백 기반 강화학습(RLHF)’의 원리와 구조, 실제 효과까지 꼼꼼히 파헤쳐 봅니다.
사람처럼 말하고, 적절한 판단까지 내리는 언어 모델.
우리는 이제 단순히 지식을 갖춘 AI를 넘어서, 공감과 균형 감각을 가진 AI를 원하고 있습니다.
이를 가능하게 하는 기술이 바로 RLHF(Reinforcement Learning from Human Feedback), 즉 인간 피드백 기반 강화학습입니다.
ChatGPT, Claude, Gemini와 같은 고급 AI 모델의 결정적 성능 향상은 대부분 이 단계를 거친 결과라고 해도 과언이 아닙니다.
RLHF는 무엇인가? 한 줄 요약부터 시작하자면
"AI가 만든 여러 답변 중, 인간이 '가장 바람직한 것'을 선택하게 하고, 그 선호를 모델에 학습시키는 과정."
사람의 피드백이 단순 데이터로 끝나지 않고, 모델의 행동 방식을 조정하는 ‘보상 기준’이 되는 것이죠.
RLHF의 학습 구조 – 3단계로 나눠보면
RLHF는 기본적으로 다음과 같은 세 단계로 진행됩니다:
- 감독학습(SFT)으로 초기 정렬
→ 이전 시리즈에서 설명한 것처럼, 우선 지시문-응답 데이터를 기반으로 모델을 정렬합니다. - 보상 모델(Reward Model) 학습
→ 모델이 생성한 여러 답변 중, 인간 평가자가 순위를 매깁니다.
→ 이 피드백을 기반으로 ‘좋은 응답일수록 높은 점수’를 주는 보상 모델을 훈련합니다. - PPO(Proximal Policy Optimization) 알고리즘으로 강화학습
→ 보상 모델이 부여한 점수를 기준으로 원래 모델을 다시 학습시킵니다.
→ 이 과정을 반복하면서 점차 바람직한 응답만 남고, 나쁜 응답은 줄어들게 됩니다.
예시로 보는 RLHF
예를 들어 다음과 같은 프롬프트가 있다고 가정해 봅시다.
[프롬프트] "인공지능에 대해 간단히 설명해줘."
모델이 생성한 답변 3개 중:
- A: “AI는 로봇입니다.”
- B: “AI는 인간의 사고를 모방하는 소프트웨어 기술입니다.”
- C: “AI는 정보를 저장하는 하드웨어입니다.”
→ 인간 평가자가 B > A > C 순으로 선호한다고 판단하면, 보상 모델은 B에 높은 점수를 주는 방향으로 학습되고, 원래의 언어 모델은 점차 B 스타일의 응답을 생성하도록 최적화됩니다.
RLHF의 강점 – 모델을 인간에 맞게 정렬하다
- 지시 이행 능력 향상
→ 보다 정확하고 명확한 지시 수행 - 유해 콘텐츠 감소
→ 편향적, 폭력적, 성적으로 부적절한 표현을 억제 - 대화의 일관성과 정서적 안정성 향상
→ “이건 너무 기계 같아”에서 “이해 받는 느낌이야”로 변화 - 도메인 적용 유연성 증가
→ 특정 산업에 맞춘 보상 기준도 반영 가능 (예: 의료 AI에서 ‘신중한 표현’ 선호)
RLHF의 한계도 명확하다
- 보상 모델의 오류
→ 인간 피드백 자체가 주관적이고 일관되지 않을 수 있음 - 리워드 해킹(Reward Hacking)
→ 모델이 ‘보상 점수만 높게 나오는 요령’을 학습해버리는 문제
(예: 실제 정보보다 듣기 좋은 말만 하게 됨) - 모드 붕괴(mode collapse)
→ 다양한 표현을 포기하고 정형화된 답변만 반복하는 경향
최근 대안들 – RLHF만이 정답은 아니다?
- DPO(Direct Preference Optimization)
→ PPO보다 더 직접적으로 인간 선호를 반영하는 새로운 방식 - RRHF(Rank-based Reinforcement Learning)
→ 순위 정보를 더 정교하게 반영하여 리워드 해킹 방지 - Constitutional AI (Anthropic Claude 모델 등)
→ 헌법(규칙)을 명시적으로 설정하고, 모델이 스스로 판단/수정하도록 유도
마무리
RLHF는 단순히 모델을 "똑똑하게" 만드는 기술이 아닙니다.
인간의 가치 판단을 모델 내부에 반영하는 방식입니다.
즉, AI가 인간에게 더 유익하고 윤리적인 존재가 되도록 이끄는 가장 현실적이고 강력한 방법이죠.
하지만 이 방식도 완벽하지 않으며, 앞으로는 RLHF를 보완하는 다양한 알고리즘과 철학적 논의가 병행되어야 할 것입니다.
LLM 학습 시리즈 요약
1화 | 사전학습 | next token prediction, 대규모 데이터, 텍스트 코퍼스 |
2화 | 감독학습 | instruction tuning, SFT, 태스크 특화 |
3화 | 강화학습 | RLHF, 보상 모델, PPO, 헌법 AI |