어떻게 라즈베리 파이에서 나만의 로컬 LLM을 실행하나요

라즈베리 파이 컴퓨터

2022년 말 OpenAI의 놀라운 ChatGPT 3 출시 이후, 대형 언어 모델(LLM)은 에세이를 작성하고 복잡한 질문에 대답하는 등 놀라운 능력을 보여주며 세계의 상상력을 사로잡았습니다.

하지만 LLM의 힘을 활용하기 위해 OpenAI나 구글, 앤트로픽과 같은 기업에 의존하고 잠재적으로 개인 데이터를 공유할 필요는 없습니다. 저렴한 라즈베리 파이를 사용하면 자신만의 로컬 AI 채팅 비서 설정이 가능합니다. 이 가이드는 그 방법을 보여줍니다.

필요 사항

라즈베리 파이에서 자신만의 LLM을 설정하기 위해서는 몇 가지 필수 구성 요소가 필요합니다:

라즈베리 파이: LLM은 리소스를 많이 소모하므로 최적의 성능을 위해 가장 강력한 라즈베리 파이를 사용하는 것이 좋습니다. 이 기사를 작성할 당시 추천되는 선택은 8 GB RAM을 가진 라즈베리 파이 5입니다.
라즈베리 파이 OS가 설치된 microSD 카드: 최대 성능을 위해 라즈베리 파이 OS의 라이트 버전을 사용하는 것이 좋습니다. LLM을 실행하기 위해 그래픽 사용자 인터페이스는 필요하지 않기 때문입니다(터미널과 SSH를 사용하여 원격으로 상호작용할 수 있습니다). 그러나 라즈베리 파이를 다른 작업이나 기본 컴퓨터로 사용 중이라면 정규 버전의 라즈베리 파이 OS를 사용할 수 있습니다. 라즈베리 파이 OS를 라즈베리 파이에 설정하는 방법에 대한 가이드가 도움이 될 수 있습니다.
기타 구성 요소: 라즈베리 파이와 빠른 microSD 카드 외에도 신뢰할 수 있는 전원 공급 장치(공식 제품 추천), 초기 설정을 위한 키보드, 마우스 및 모니터(SSH를 사용하는 경우 선택 사항), 필요한 소프트웨어와 모델 다운로드를 위한 인터넷 연결이 필요합니다.

이 구성 요소들이 준비되면, 라즈베리 파이에서 자신만의 LLM을 설정할 준비가 완료된 것입니다.

올라마 설치하기

라즈베리 파이에서 자신의 LLM을 설정하는 첫 번째 단계는 필요한 소프트웨어를 설치하는 것입니다. 현재 로컬에서 LLM을 실행하기 위한 두 가지 가장 인기 있는 선택은 llama.cpp와 Ollama입니다.

llama.cpp는 메타의 LLaMA(대형 언어 모델 어댑터)의 경량 C++ 구현체로 라즈베리 파이를 포함한 다양한 하드웨어에서 실행될 수 있습니다. Georgi Gerganov에 의해 개발되었으며 2023년 3월에 출시되었습니다.
반면, Ollama는 llama.cpp를 기반으로 구축되었으며 여러 사용자 친화적인 기능을 제공합니다. 사용자가 요청하는 포맷에 맞게 채팅 요청의 템플릿을 자동으로 처리하며, 클라이언트의 요청에 따라 모델을 필요에 따라 로드하고 언로드합니다. Ollama는 양자화된 모델을 포함한 모델의 다운로드 및 캐싱도 관리하여 이름으로 요청할 수 있도록 합니다.

이 가이드에서는 사용 용이성과 추가 기능 때문에 Ollama를 사용할 것입니다.

라즈베리 파이에 Ollama를 설치하려면, 라즈베리 파이에서 터미널 창을 엽니다. SSH를 사용하는 경우, 선호하는 SSH 클라이언트를 사용하여 라즈베리 파이에 연결합니다. 그런 다음 터미널에 다음 명령어를 입력합니다:

curl -fsSL https://ollama.com/install.sh |sh

이 명령은 공식 Ollama 웹사이트에서 설치 스크립트를 다운로드하고 실행합니다. 스크립트는 필요한 종속성을 자동으로 설치하고 라즈베리 파이에 Ollama를 설정합니다.

Ollama 설치 완료

LLM 다운로드 및 실행하기

Ollama가 설치되었으면, 대형 언어 모델을 다운로드할 시간입니다. 8 GB RAM을 가진 라즈베리 파이를 사용 중이라면 최대 70억 개의 매개변수를 가진 모델을 실행할 수 있습니다(AI가 출력을 결정하는 데 사용하는 설정).

인기 있는 선택으로는 Mistral (7B), Gemma (7B 또는 2B), Llama 2 비검열판 (7B) 또는 Microsoft의 Phi-3 (3.8B)가 있습니다. 모든 지원되는 모델은 Ollama 라이브러리 페이지에서 확인할 수 있습니다.

이 가이드에서는 Microsoft의 Phi-3 모델을 사용할 것입니다. Phi-3은 작은 크기와 효율성에도 불구하고 매우 능력 있는 모델입니다. 설치하려면 터미널에서 다음 명령어를 실행하면 됩니다:

ollama run phi3

이 명령어는 Phi-3 모델을 다운로드하고 설치하며, 또한 모델과의 대화형 채팅 세션을 자동으로 시작합니다.

Ollama Phi3 다운로드

라즈베리 파이에서 로컬 LLM 사용하기

Phi-3 모델을 다운로드하고 설치한 후, 터미널에서 다음과 같은 프롬프트가 표시됩니다:

>>> 메시지를 보내세요 (/? 도움말)

이는 LLM이 실행 중이며 입력을 기다리고 있음을 의미합니다. 모델과 상호작용을 시작하려면 메시지를 입력하고 Enter를 누릅니다.

Ollama 질문에 대답하는 모습

효과적인 프롬프트를 작성하기 위한 몇 가지 팁은 다음과 같습니다:

구체적으로 작성하세요: LLM이 원하는 내용을 이해하는 데 도움이 되도록 명확하고 자세한 지침이나 질문을 제공하세요.
맥락을 설정하세요: LLM이 더 관련성 높은 응답을 생성할 수 있도록 배경 정보나 시나리오를 제공하세요.
역할 정의하기: LLM이 응답에서 어떤 역할을 맡아야 하는지 정의하세요, 예를 들어 이야기꾼, 교사 또는 기술 전문가 등입니다.

LLM 세션을 종료하려면 Ctrl + d를 누르거나 /bye 명령어를 입력합니다. 나중에 다른 세션을 시작하고 싶다면 새 터미널을 열고 ollama run phi3 명령어를 실행하세요. 모델이 이미 다운로드되었으므로 다시 다운로드할 필요 없이 빠르게 시작됩니다.

라즈베리 파이 5의 성능에는 한계가 있으며, 초당 몇 개의 토큰만 출력할 수 있다는 점을 염두에 두세요. 더 나은 성능을 원한다면 전용 그래픽 카드가 있는 더 강력한 컴퓨터에서 Ollama를 실행하는 것이 좋습니다.

이미지 제공: Unsplash. 스크린샷 제공: David Morelo.