Wie man ein lokales LLM auf einem Raspberry Pi ausführt

Raspberry Pi Computer

Seit der atemberaubenden Veröffentlichung von ChatGPT 3 durch OpenAI Ende 2022 haben Large Language Models (LLMs) die Vorstellungskraft der Menschen gewonnen, indem sie bemerkenswerte Fähigkeiten demonstrierten, von der Verfassung von Essays bis hin zur Beantwortung komplexer Fragen.

Allerdings müssen Sie sich nicht auf Unternehmen wie OpenAI oder Google oder Anthropic verlassen und möglicherweise persönliche Daten teilen, um von der Leistung von LLMs zu profitieren. Mit nur einem erschwinglichen Raspberry Pi können Sie Ihren eigenen lokalen KI-gestützten Chat-Assistenten einrichten. Diese Anleitung zeigt Ihnen, wie.

Inhaltsverzeichnis

Was Sie benötigen
Ollama installieren
Ein LLM herunterladen und ausführen
Verwendung eines lokalen LLM auf Ihrem Raspberry Pi

Was Sie benötigen

Um Ihr eigenes LLM auf einem Raspberry Pi einzurichten, benötigen Sie einige wesentliche Komponenten:

Raspberry Pi: Da LLMs ressourcenintensiv sind, ist es am besten, den leistungsstärksten Raspberry Pi zu verwenden, der für optimale Leistung verfügbar ist. Zum Zeitpunkt des Verfassens dieses Artikels ist der Raspberry Pi 5 mit 8 GB RAM die empfohlene Wahl.
microSD-Karte mit Raspberry Pi OS: Für maximale Leistung sollten Sie die Lite-Version von Raspberry Pi OS verwenden, da eine grafische Benutzeroberfläche nicht notwendig ist, um ein LLM auszuführen (Sie können es remote über ein Terminal und SSH steuern). Wenn Sie jedoch Ihren Raspberry Pi für andere Aufgaben oder als Ihren Hauptcomputer verwenden, können Sie die reguläre Version von Raspberry Pi OS nutzen. Unser Leitfaden zum Einrichten von Raspberry Pi OS auf einem Raspberry Pi kann Ihnen helfen, loszulegen.
Weitere Komponenten: Neben dem Raspberry Pi und einer schnellen microSD-Karte benötigen Sie ein zuverlässiges Netzteil (das offizielle wird empfohlen), eine Tastatur, eine Maus und einen Monitor für die Erstkonfiguration (optional, wenn Sie SSH verwenden), sowie eine Internetverbindung zum Herunterladen der erforderlichen Software und Modelle.

Mit diesen Komponenten in der Hand sind Sie bereit, Ihr eigenes LLM auf Ihrem Raspberry Pi einzurichten.

Ollama installieren

Der erste Schritt zur Einrichtung eines eigenen LLM auf einem Raspberry Pi ist die Installation der erforderlichen Software. Momentan sind die beiden beliebtesten Optionen zum Ausführen von LLMs lokal llama.cpp und Ollama.

llama.cpp ist eine leichtgewichtige C++-Implementierung von Metas LLaMA (Large Language Model Adapter), die auf einer Vielzahl von Hardware, einschließlich Raspberry Pi, laufen kann. Es wurde von Georgi Gerganov entwickelt und im März 2023 veröffentlicht.
Ollama hingegen baut auf llama.cpp auf und bietet mehrere benutzerfreundliche Funktionen. Es verarbeitet automatisch die Formatierung von Chat-Anfragen entsprechend dem, was jedes Modell erwartet, und lädt Modelle je nach Anforderung des Clients nach Bedarf. Ollama verwaltet auch das Herunterladen und Caching von Modellen, einschließlich quantisierter Modelle, sodass Sie sie nach Namen anfordern können.

Für diesen Leitfaden verwenden wir Ollama aufgrund seiner Benutzerfreundlichkeit und zusätzlichen Funktionen.

Um Ollama auf Ihrem Raspberry Pi zu installieren, öffnen Sie ein Terminalfenster auf Ihrem Raspberry Pi. Wenn Sie SSH verwenden, verbinden Sie sich mit Ihrem bevorzugten SSH-Client mit Ihrem Raspberry Pi. Geben Sie dann den folgenden Befehl im Terminal ein:

curl -fsSL https://ollama.com/install.sh |sh

Dieser Befehl lädt das Installationsskript von der offiziellen Ollama-Website herunter und führt es aus. Das Skript installiert automatisch die erforderlichen Abhängigkeiten und richtet Ollama auf Ihrem Raspberry Pi ein.

Ollama Installation Finished

Ein LLM herunterladen und ausführen

Mit Ollama installiert, ist es an der Zeit, ein Large Language Model herunterzuladen. Wenn Sie einen Raspberry Pi mit 8 GB RAM verwenden, können Sie Modelle mit bis zu 7 Milliarden Parametern ausführen (die Einstellungen, die die KI verwendet, um ihre Ausgaben zu bestimmen).

Einige beliebte Optionen sind Mistral (7B), Gemma (7B oder 2B), Llama 2 uncensored (7B) oder Microsofts Phi-3 (3.8B). Sie können alle unterstützten Modelle auf der Ollama-Bibliotheksseite einsehen.

Für diesen Leitfaden verwenden wir das Phi-3-Modell von Microsoft. Trotz seiner geringen Größe und Effizienz ist Phi-3 ein äußerst fähiges Modell. Um es zu installieren, führen Sie einfach den folgenden Befehl im Terminal aus:

ollama run phi3

Dieser Befehl lädt und installiert das Phi-3-Modell und startet automatisch eine interaktive Chat-Sitzung mit dem Modell.

Ollama Phi3 Download

Verwendung eines lokalen LLM auf Ihrem Raspberry Pi

Nachdem Sie das Phi-3-Modell heruntergeladen und installiert haben, sehen Sie eine Eingabeaufforderung im Terminal, die so aussieht:

>>> Send a message (/? forhelp)

Das bedeutet, dass das LLM läuft und auf Ihre Eingabe wartet. Um mit dem Modell zu interagieren, geben Sie Ihre Nachricht ein und drücken Sie die Eingabetaste.

Ollama Answering A Question

Hier sind einige Tipps zur Erstellung effektiver Eingabeaufforderungen:

Seien Sie spezifisch: Geben Sie klare und detaillierte Anweisungen oder Fragen an, damit das LLM versteht, was Sie suchen.
Setzen Sie den Kontext: Geben Sie dem LLM einige Hintergrundinformationen oder ein Szenario, um es zu unterstützen, relevantere Antworten zu generieren.
Definieren Sie Rollen: Geben Sie an, welche Rolle das LLM in seiner Antwort einnehmen soll, wie zum Beispiel Geschichtenerzähler, Lehrer oder technischer Experte.

Um die LLM-Sitzung zu beenden, drücken Sie Ctrl + d oder geben Sie den Befehl /bye ein. Wenn Sie später eine weitere Sitzung starten möchten, öffnen Sie einfach ein neues Terminal und führen Sie den Befehl ollama run phi3 aus. Da das Modell bereits heruntergeladen wurde, wird es schnell gestartet, ohne dass ein erneuter Download erforderlich ist.

Beachten Sie, dass die Leistung des Raspberry Pi 5 ihre Grenzen hat und es nur einige Token pro Sekunde ausgeben kann. Für eine bessere Leistung sollten Sie in Erwägung ziehen, Ollama auf einem leistungsstärkeren Computer mit einer dedizierten Grafikkarte auszuführen.

Bildnachweis: Unsplash. Screenshots von David Morelo.