기술과 산업/AI
LLaMA 로컬 설치 가이드 – llama.cpp 기반 실습
B컷개발자
2025. 5. 12. 21:07
728x90
GPT API 없이 내 컴퓨터에서 직접 LLaMA 모델을 돌릴 수 있다면 어떨까요?
최신 오픈소스 LLaMA를 로컬에서 초간단으로 실행할 수 있는 방법을 소개합니다.
대표적인 도구가 바로 llama.cpp입니다.
llama.cpp를 이용해 LLaMA 모델을 Mac, Windows, Linux에서 로컬 실행하는 방법을 코드 예제와 함께 소개합니다. 저사양 노트북에서도 AI 챗봇을 만들 수 있습니다.
llama.cpp란?
- C++로 작성된 초경량 LLaMA 실행 엔진
- Mac, Linux, Windows 등 거의 모든 OS에서 실행 가능
- INT4, INT8 양자화를 지원해 저사양 노트북에서도 실행 가능
실제 많은 개발자들이 16GB RAM 노트북에서 LLaMA 7B 모델을 돌리는 데 사용 중입니다.
설치 준비
1. Git 클론
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
2. 빌드 (Mac/Linux)
make
Windows는 Visual Studio 또는 CMake를 사용해 빌드합니다.
모델 파일 준비
Meta LLaMA 모델을 직접 다운로드할 수는 없습니다.
보통 ggml 포맷 모델을 사용합니다.
예시:
- ggml-model-q4_0.bin → 4bit 양자화 모델
- ggml-model-f16.bin → full precision 모델
비공식 community 기반 ggml 모델은 Hugging Face나 community repo에서 찾을 수 있습니다.
llama.cpp로 LLaMA 실행하기
단일 프롬프트 테스트
./main -m ./models/ggml-model-q4_0.bin -p "LLaMA 모델의 장점은 무엇인가요?"
대화형 모드로 실행
./main -m ./models/ggml-model-q4_0.bin --interactive
주요 옵션
- -n 100: 출력 토큰 개수 설정
- --threads 8: CPU 스레드 수 지정 (노트북 최적화 시 유용)
- --temp 0.7: 샘플링 온도 (창의성 조절)
추가: Web UI로 llama.cpp 사용하기
llama.cpp 기반 Web UI도 매우 활발하게 개발되고 있습니다.
예시:
- Oobabooga Text Generation Web UI
- text-generation-webui는 여러 ggml 모델을 쉽게 불러와 GUI에서 실행 가능
설치 예시:
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
python server.py
웹 브라우저에서 바로 사용 가능!
실전 팁
- Mac M1/M2 칩은 Metal backend 사용 시 성능이 매우 뛰어남
- Windows에서는 ggml-openblas.dll 설치 권장
- INT4 모델로 최소 메모리 요구 사항은 약 5~6GB RAM 수준
LLaMA 로컬 실행, 이제 누구나 가능
방법 메모리 최소 요구 난이도 추천 대상
llama.cpp CLI | 약 5~6GB | ★★☆☆☆ | 개발자, 연구자 |
llama.cpp + Web UI | 약 6~8GB | ★☆☆☆☆ | 비개발자, 실험용 |
GPU 기반 llama.cpp | 약 12~16GB (7B) | ★★★☆☆ | 개발자, 기업용 프로토타입 |
llama.cpp 덕분에 이제 GPT API 비용 부담 없이 내 PC, 서버에서 완벽하게 LLaMA 모델을 실행할 수 있습니다.
728x90