ggml1 llama.cpp를 설치하여 Ubuntu 서버에서 llama-2 경량모델을 실행해보자 GPT-3.5나 GPT-4에 비하여 파라미터 수가 훨씬 적은 Llama-2 모델이지만, 여전히 로컬 환경이나 vRAM 크기가 작은 GPU로 실행하기에는 쉽지 않다. 다행히 가중치 양자화(quantization)를 비롯한 대규모 언어모델의 경량화 연구도 활발하게 이뤄지고 있고, 이에 따라 오픈소스 언어모델들의 양자화된 모델들이 GPTQ 또는 GGML 포맷으로 공개되고 있다. llama.cpp 레포는 Llama 모델의 추론 프로세스를 순수한 C/C++로 구현한 프로젝트로서, 맥북에서 4-bit quantized LLaMA 모델을 실행하는 것을 목표로 한다. 그러나 Windows나 Linux 등 다양한 플랫폼에서도 사용 가능하고, 점차 많은 모델들을 지원해 나가고 있으며, 여러 프로그래밍 언어로의 바인딩도 함.. 2023. 9. 26. 이전 1 다음