기술과 산업/AI

LoRA 거대 언어 모델을 가볍게 학습시키는 마법 같은 방법

B컷개발자 2025. 5. 22. 13:02
728x90

LoRA는 대형 언어 모델을 효율적으로 파인튜닝할 수 있는 방법입니다. 이 글에서는 Microsoft가 제안한 LoRA의 개념, 수식 구조, 실험 결과, 그리고 다양한 적용 사례까지 자세히 소개합니다.

 

거대한 언어 모델을 파인튜닝하면서 수백만 개의 파라미터를 전부 학습하는 일이 부담스럽게 느껴진 적 있으신가요?
Microsoft와 University of Washington 연구진이 함께 제안한 LoRA(Low-Rank Adaptation)는, 기존 모델의 성능은 유지하면서도 파인튜닝에 필요한 파라미터 수를 극적으로 줄여주는 방법론입니다.

오늘은 이 LoRA 논문(arXiv:2106.09685)을 바탕으로, 왜 이 기술이 중요한지, 어떻게 작동하는지, 그리고 실전에서는 어떤 효과를 주는지 함께 살펴보겠습니다.

 

LoRA가 등장한 이유

기존에는 대형 언어 모델을 특정 태스크에 맞게 조정하려면 모델 전체를 파인튜닝해야 했습니다. 이는 수십억 개의 파라미터를 학습해야 함을 의미하고, 이에 따른 GPU 메모리 사용량 증가, 저장 비용 상승, 재학습의 비효율성 문제가 뒤따랐습니다.

그러나 연구자들은 한 가지 중요한 점을 발견했습니다.

"모델 전체를 학습하지 않아도, 실제 성능 향상에 필요한 정보는 훨씬 더 저차원 공간 안에 있다는 사실이죠."

이 통찰에서 출발한 것이 바로 LoRA입니다.

 

핵심 아이디어: 고정된 모델에 저랭크(Low-Rank) 적응층 추가

Transformer 모델 내부의 선형 계층(weight matrix)을 완전히 학습하는 대신, LoRA는 다음처럼 접근합니다:

  • 원래 weight는 그대로 유지 (학습하지 않음)
  • 대신 저차원의 A, B 행렬을 삽입해 출력에 추가적인 표현을 더합니다

즉, 수식으로 표현하면 다음과 같습니다:

기존 출력: y = Wx  
LoRA 적용: y = Wx + BAx

여기서 A와 B는 학습 대상이며, 둘 다 rank가 작기 때문에 전체 학습 파라미터 수가 대폭 줄어듭니다.
이 방식은 기존 모델의 추론 경로를 해치지 않으면서도, 파인튜닝에 필요한 변화량만 추가하는 구조를 갖게 됩니다.

 

실험 결과로 입증된 효율성

논문에서는 BERT, RoBERTa, GPT-2 같은 모델에 LoRA를 적용한 실험을 진행했습니다.
그 결과는 인상적이었습니다:

  • 파라미터 수: 기존 대비 최대 10,000배 이상 절감
  • 성능: 기존 Fine-Tuning과 거의 동일하거나 오차 수준의 차이
  • 태스크: GLUE, QA, Summarization, NER 등 다양한 분야에서 테스트

예를 들어, BERT + GLUE 벤치마크에서는:

  • Full Fine-Tuning: 평균 79.6점
  • LoRA (r=4): 평균 78.9점
  • LoRA (r=8): 평균 79.5점

성능 손실 없이, 훨씬 효율적으로 학습을 마칠 수 있었음을 보여줍니다.

 

왜 LoRA가 잘 작동하는가?

Transformer 기반 모델은 본래 과도하게 큰 표현 공간을 갖고 있으며, 대부분의 태스크에서는 이 공간 중 극히 일부만을 필요로 합니다. LoRA는 이 ‘실제로 필요한 부분’만 뽑아내는 역할을 하며, 다음과 같은 장점을 갖습니다:

  • 기존 모델 구조 변경 없음
  • 다수 태스크에 대해 독립적인 파인튜닝 가능
  • 서버 비용 및 배포 부담 대폭 절감

 

확장성과 실전 적용

LoRA는 이후 다양한 응용 기술로 확장되었습니다:

  • QLoRA: Quantization을 함께 적용해 더 가볍게
  • AdaLoRA: 동적으로 랭크를 조정하며 최적화
  • LoRA++: fine-tuning 안정성 개선

또한, Hugging Face의 peft 라이브러리와 통합되어, GPT-2, LLaMA, BERT 등의 모델에서 매우 쉽게 적용할 수 있습니다.
Stable Diffusion 같은 이미지 생성 모델에도 적용된 사례도 등장하고 있습니다.

 

LoRA는 모델 경량화의 새로운 표준

이제 우리는 더 이상 거대한 모델 전체를 학습할 필요가 없습니다.
LoRA는 딥러닝 모델을 더 가볍고 빠르게, 그리고 효율적으로 만드는 중요한 방법이 되었으며, 앞으로도 다양한 변형 및 확장 기법의 기반이 될 것입니다.

참고 자료

728x90