기술과 산업/AI

LLaMA 로컬 설치 가이드 – llama.cpp 기반 실습

B컷개발자 2025. 5. 12. 21:07
728x90

GPT API 없이 내 컴퓨터에서 직접 LLaMA 모델을 돌릴 수 있다면 어떨까요?
최신 오픈소스 LLaMA를 로컬에서 초간단으로 실행할 수 있는 방법을 소개합니다.
대표적인 도구가 바로 llama.cpp입니다.
llama.cpp를 이용해 LLaMA 모델을 Mac, Windows, Linux에서 로컬 실행하는 방법을 코드 예제와 함께 소개합니다. 저사양 노트북에서도 AI 챗봇을 만들 수 있습니다.

 

llama.cpp란?

  • C++로 작성된 초경량 LLaMA 실행 엔진
  • Mac, Linux, Windows 등 거의 모든 OS에서 실행 가능
  • INT4, INT8 양자화를 지원해 저사양 노트북에서도 실행 가능

실제 많은 개발자들이 16GB RAM 노트북에서 LLaMA 7B 모델을 돌리는 데 사용 중입니다.


설치 준비

1. Git 클론

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

2. 빌드 (Mac/Linux)

make

Windows는 Visual Studio 또는 CMake를 사용해 빌드합니다.


모델 파일 준비

Meta LLaMA 모델을 직접 다운로드할 수는 없습니다.
보통 ggml 포맷 모델을 사용합니다.

예시:

  • ggml-model-q4_0.bin → 4bit 양자화 모델
  • ggml-model-f16.bin → full precision 모델

비공식 community 기반 ggml 모델은 Hugging Face나 community repo에서 찾을 수 있습니다.


llama.cpp로 LLaMA 실행하기

단일 프롬프트 테스트

./main -m ./models/ggml-model-q4_0.bin -p "LLaMA 모델의 장점은 무엇인가요?"

대화형 모드로 실행

./main -m ./models/ggml-model-q4_0.bin --interactive

주요 옵션

  • -n 100: 출력 토큰 개수 설정
  • --threads 8: CPU 스레드 수 지정 (노트북 최적화 시 유용)
  • --temp 0.7: 샘플링 온도 (창의성 조절)

추가: Web UI로 llama.cpp 사용하기

llama.cpp 기반 Web UI도 매우 활발하게 개발되고 있습니다.

예시:

설치 예시:

git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
python server.py

웹 브라우저에서 바로 사용 가능!


실전 팁

  • Mac M1/M2 칩은 Metal backend 사용 시 성능이 매우 뛰어남
  • Windows에서는 ggml-openblas.dll 설치 권장
  • INT4 모델로 최소 메모리 요구 사항은 약 5~6GB RAM 수준

LLaMA 로컬 실행, 이제 누구나 가능

방법 메모리 최소 요구 난이도 추천 대상

llama.cpp CLI 약 5~6GB ★★☆☆☆ 개발자, 연구자
llama.cpp + Web UI 약 6~8GB ★☆☆☆☆ 비개발자, 실험용
GPU 기반 llama.cpp 약 12~16GB (7B) ★★★☆☆ 개발자, 기업용 프로토타입

 

llama.cpp 덕분에 이제 GPT API 비용 부담 없이 내 PC, 서버에서 완벽하게 LLaMA 모델을 실행할 수 있습니다.

728x90