gpt학습
-
LLM 학습 시리즈 3화 – 인간다운 AI를 만드는 마지막 퍼즐: RLHF 완전 이해기술과 산업/AI 2025. 5. 23. 14:00
LLM이 사람처럼 말하고 판단하려면 무엇이 필요할까? 이 글에서는 ‘인간 피드백 기반 강화학습(RLHF)’의 원리와 구조, 실제 효과까지 꼼꼼히 파헤쳐 봅니다. 사람처럼 말하고, 적절한 판단까지 내리는 언어 모델.우리는 이제 단순히 지식을 갖춘 AI를 넘어서, 공감과 균형 감각을 가진 AI를 원하고 있습니다.이를 가능하게 하는 기술이 바로 RLHF(Reinforcement Learning from Human Feedback), 즉 인간 피드백 기반 강화학습입니다.ChatGPT, Claude, Gemini와 같은 고급 AI 모델의 결정적 성능 향상은 대부분 이 단계를 거친 결과라고 해도 과언이 아닙니다. RLHF는 무엇인가? 한 줄 요약부터 시작하자면"AI가 만든 여러 답변 중, 인간이 '가장 바람직한 것..
-
LLM 학습 시리즈 2화 – LLM을 똑똑하게 만드는 법: 감독학습(SFT)과 그 한계기술과 산업/AI 2025. 5. 23. 08:30
LLM이 인간처럼 질문에 답하고 명령을 수행하려면 사전학습만으로는 부족합니다. 이 글에서는 '감독학습(Supervised Fine-Tuning)'의 역할과 그 구조적 한계를 깊이 있게 다룹니다. LLM이 아무리 많은 텍스트를 학습했더라도, 단순히 '많이 읽은 AI'일 뿐입니다.실제 사용자의 명령을 이해하고 그에 맞춰 정확한 반응을 하기 위해서는 추가 학습이 필요합니다.바로 그 역할을 하는 것이 감독학습(Supervised Fine-Tuning, SFT) 입니다. SFT란 무엇인가? 쉽게 설명하면…SFT는 “이 입력에는 이렇게 답하라”는 정답지를 주고 모델을 다시 훈련시키는 과정입니다.예를 들어 아래와 같은 데이터로 구성됩니다:[입력] 다음 문장을 영어로 번역하세요: "나는 밥을 먹었다." [출력] I ..