あなた自身のローカルLLMをRaspberry Piで実行する方法

OpenAIが2022年末にChatGPT 3を発表して以来、大規模言語モデル(LLM)は、エッセイ作成から複雑な質問への回答まで、驚異的な能力を示し、世界中の人々の想像力を掴んできました。
しかし、LLMの力を享受するために、OpenAIやGoogle、Anthropicのような企業に依存したり、個人データを共有する必要はありません。手頃な価格のRaspberry Piを使用することで、独自のローカルAIチャットアシスタントを設定できます。このガイドでは、その手順を示します。
目次
- 必要なもの
- Ollamaのインストール
- LLMのダウンロードと実行
- Raspberry PiでのローカルLLMの使用
必要なもの
Raspberry Piで自分のLLMを設定するには、いくつかの必須コンポーネントが必要です:
- Raspberry Pi:LLMはリソースを多く消費するため、最適なパフォーマンスを得るためには、できるだけ強力なRaspberry Piを使用するのが望ましいです。この記事執筆時点では、8GB RAMのRaspberry Pi 5がお勧めです。
- Raspberry Pi OSが入ったmicroSDカード:最大限のパフォーマンスを得るために、Raspberry Pi OSのライト版を使用することを考慮してください。LLMを実行するにはグラフィカルユーザーインターフェースは必要ありません(ターミナルとSSHを使用してリモートで操作できます)。ただし、Raspberry Piを他のタスクやメインコンピュータとして使用する場合は、通常のRaspberry Pi OSを使用できます。Raspberry Pi OSをRaspberry Piにセットアップする方法に関するガイドが役立つでしょう。
- その他のコンポーネント:Raspberry Piと高速なmicroSDカードに加えて、信頼できる電源(公式のものを推奨)、初期設定用のキーボード、マウス、モニター(SSHを使用する場合はオプション)、必要なソフトウェアやモデルをダウンロードするためのインターネット接続が必要です。
このコンポーネントを手に入れたら、Raspberry Piで独自のLLMを設定し始める準備が整いました。
Ollamaのインストール
Raspberry Piで自分のLLMを設定する最初のステップは、必要なソフトウェアをインストールすることです。現在、ローカルでLLMを実行するための最も人気のある選択肢は、llama.cppとOllamaの2つです。
- llama.cppは、MetaのLLaMA(大規模言語モデルアダプター)の軽量なC++実装で、Raspberry Piを含む幅広いハードウェアで実行できます。これはGeorgi Gerganovによって開発され、2023年3月にリリースされました。
- 一方、Ollamaはllama.cppを基にしており、いくつかの使いやすい機能を提供しています。チャットリクエストのテンプレート作成を各モデルが期待する形式に自動的に処理し、クライアントのリクエストに応じてモデルをロードおよびアンロードします。Ollamaは、量子化されたモデルを含むモデルのダウンロードとキャッシュも管理するため、モデル名でリクエストすることができます。
このガイドでは、使いやすさと追加機能のためにOllamaを使用します。
Raspberry PiにOllamaをインストールするには、Raspberry Piのターミナルウィンドウを開きます。SSHを使用している場合は、お好みのSSHクライアントを使用してRaspberry Piに接続します。そして、ターミナルに以下のコマンドを入力します:
curl -fsSL https://ollama.com/install.sh |shこのコマンドは、公式Ollamaウェブサイトからインストールスクリプトをダウンロードして実行します。このスクリプトは、必要な依存関係を自動的にインストールし、Raspberry PiにOllamaをセットアップします。

LLMのダウンロードと実行
Ollamaがインストールされたので、大規模言語モデルをダウンロードする時が来ました。8GBのRAMを備えたRaspberry Piを使用している場合、最大70億パラメータのモデルを実行できます(AIが出力を決定するために使用する設定)。
人気のある選択肢には、Mistral (7B)、Gemma (7Bまたは2B)、Llama 2 uncensored (7B)、MicrosoftのPhi-3 (3.8B)があります。Ollamaライブラリページでサポートされているすべてのモデルを確認できます。
このガイドでは、MicrosoftのPhi-3モデルを使用します。小型で効率的でありながら、Phi-3は非常に優れたモデルです。インストールするには、ターミナルで以下のコマンドを実行します:
ollama run phi3このコマンドはPhi-3モデルをダウンロードしてインストールし、モデルとのインタラクティブチャットセッションを自動的に開始します。

Raspberry PiでのローカルLLMの使用
Phi-3モデルのダウンロードとインストールが完了すると、ターミナルに次のようなプロンプトが表示されます:
>>> メッセージを送信する(/? forhelp)これはLLMが実行中で、あなたの入力を待っていることを意味します。モデルと対話を始めるには、メッセージを入力してEnterキーを押します。

効果的なプロンプトを作成するためのヒントは以下の通りです:
- 具体的に:LLMにあなたが求めていることを理解させるために、明確で詳細な指示や質問を提供してください。
- コンテキストを設定する:LLMがより関連性の高い応答を生成できるように、背景情報やシナリオを提供してください。
- 役割を定義する:LLMがその応答で担うべき役割を明確に指定します(物語の語り手、教師、専門家など)。
LLMセッションを終了するには、Ctrl + dを押すか、 /byeコマンドを入力します。後で別のセッションを開始したい場合は、新しいターミナルを開いてollama run phi3コマンドを実行するだけで、すでにモデルはダウンロードされているため、すぐに起動します。
Raspberry Pi 5のパフォーマンスには限界があり、1秒あたり数トークンしか出力できないことに注意してください。より良いパフォーマンスを得るためには、専用のグラフィックカードを備えたより強力なコンピュータでOllamaを実行することを検討してください。
画像提供元:Unsplash。スクリーンショットはDavid Moreloによるものです。