Comment exécuter votre propre LLM local sur un Raspberry Pi

Ordinateur Raspberry Pi

Depuis la sortie incroyable de ChatGPT 3 par OpenAI à la fin de 2022, les grands modèles de langage (LLMs) ont captivé l’imagination du monde en démontrant des capacités remarquables, allant de la rédaction d’essais à la réponse à des questions complexes.

Cependant, vous n’avez pas besoin de compter sur des entreprises comme OpenAI, Google ou Anthropic et de partager des données potentiellement personnelles pour tirer parti de la puissance des LLMs. Avec juste un Raspberry Pi abordable, vous pouvez configurer votre propre assistant AI basé sur un chat local. Ce guide vous montre comment faire.

Table des matières

Ce dont vous aurez besoin
Installer Ollama
Télécharger et exécuter un LLM
Utiliser un LLM local sur votre Raspberry Pi

Ce dont vous aurez besoin

Pour configurer votre propre LLM sur un Raspberry Pi, il y a quelques composants essentiels dont vous aurez besoin :

Raspberry Pi : Étant donné que les LLMs sont gourmands en ressources, il est préférable d’utiliser le Raspberry Pi le plus puissant disponible pour des performances optimales. Au moment de la rédaction de cet article, le Raspberry Pi 5 avec 8 Go de RAM est le choix recommandé.
Carte microSD avec Raspberry Pi OS : Pour des performances maximales, envisagez d’utiliser la version lite de Raspberry Pi OS, car une interface graphique n’est pas nécessaire pour exécuter un LLM (vous pouvez interagir avec lui à distance en utilisant un terminal et SSH). Cependant, si vous utilisez votre Raspberry Pi pour d’autres tâches ou comme votre ordinateur principal, vous pouvez utiliser la version normale de Raspberry Pi OS. Notre guide sur la façon de configurer Raspberry Pi OS sur un Raspberry Pi peut vous aider à commencer.
Composants supplémentaires : En plus du Raspberry Pi et d’une carte microSD rapide, vous aurez besoin d’une alimentation fiable (la version officielle est recommandée), d’un clavier, d’une souris et d’un moniteur pour la configuration initiale (optionnel si vous utilisez SSH), et d’une connexion Internet pour télécharger les logiciels et modèles nécessaires.

Avec ces composants en main, vous êtes prêt à commencer à configurer votre propre LLM sur votre Raspberry Pi.

Installer Ollama

La première étape pour configurer votre propre LLM sur un Raspberry Pi est d’installer le logiciel nécessaire. Actuellement, les deux choix les plus populaires pour exécuter des LLMs localement sont llama.cpp et Ollama.

llama.cpp est une implémentation C++ légère du modèle LLaMA (Large Language Model Adapter) de Meta qui peut fonctionner sur une large gamme de matériel, y compris le Raspberry Pi. Il a été développé par Georgi Gerganov et publié en mars 2023.
Ollama, en revanche, est construit autour de llama.cpp, offrant plusieurs fonctionnalités conviviales. Il gère automatiquement la mise en forme des demandes de chat au format attendu par chaque modèle, et il charge et décharge les modèles à la demande en fonction des requêtes du client. Ollama gère également le téléchargement et la mise en cache des modèles, y compris les modèles quantifiés, afin que vous puissiez les demander par leur nom.

Pour ce guide, nous utiliserons Ollama en raison de sa facilité d’utilisation et de ses fonctionnalités supplémentaires.

Pour installer Ollama sur votre Raspberry Pi, ouvrez une fenêtre de terminal sur votre Raspberry Pi. Si vous utilisez SSH, connectez-vous à votre Raspberry Pi en utilisant votre client SSH préféré. Ensuite, entrez la commande suivante dans le terminal :

curl -fsSL https://ollama.com/install.sh |sh

Cette commande télécharge et exécute le script d’installation à partir du site officiel d’Ollama. Le script installera automatiquement les dépendances requises et configurera Ollama sur votre Raspberry Pi.

Installation d'Ollama terminée

Télécharger et exécuter un LLM

Avec Ollama installé, il est temps de télécharger un grand modèle de langage. Si vous utilisez un Raspberry Pi avec 8 Go de RAM, vous pouvez exécuter des modèles avec jusqu’à 7 milliards de paramètres (les paramètres que l’IA utilise pour déterminer ses sorties).

Certains choix populaires incluent Mistral (7B), Gemma (7B ou 2B), Llama 2 non censuré (7B), ou Phi-3 de Microsoft (3.8B). Vous pouvez voir tous les modèles pris en charge sur la page de la bibliothèque Ollama.

Pour ce guide, nous utiliserons le modèle Phi-3 de Microsoft. Malgré sa taille réduite et son efficacité, Phi-3 est un modèle extrêmement capable. Pour l’installer, il vous suffit de exécuter la commande suivante dans le terminal :

ollama run phi3

Cette commande téléchargera et installera le modèle Phi-3, et elle commencera également automatiquement une session de chat interactive avec le modèle.

Téléchargement d'Ollama Phi3

Utiliser un LLM local sur votre Raspberry Pi

Après avoir téléchargé et installé le modèle Phi-3, vous verrez une invite dans le terminal qui ressemble à ceci :

>>> Envoyez un message (/? pour aide)

Cela signifie que le LLM est en cours d’exécution et attend votre saisie. Pour commencer à interagir avec le modèle, tapez votre message et appuyez sur Entrée.

Ollama répondant à une question

Voici quelques conseils pour formuler des invites efficaces :

Soyez spécifique : Fournissez des instructions ou des questions claires et détaillées pour aider le LLM à comprendre ce que vous recherchez.
Définissez le contexte : Donnez au LLM des informations de base ou un scénario pour l’aider à générer des réponses plus pertinentes.
Définissez les rôles : Spécifiez le rôle que le LLM doit assumer dans sa réponse, comme un conteur, un professeur ou un expert technique.

Pour terminer la session LLM, appuyez sur Ctrl + d ou saisissez la commande /bye. Si vous souhaitez commencer une autre session plus tard, ouvrez simplement un nouveau terminal et exécutez la commande ollama run phi3. Comme le modèle est déjà téléchargé, il démarrera rapidement sans avoir besoin de le télécharger à nouveau.

Gardez à l’esprit que les performances du Raspberry Pi 5 ont leurs limites, et il peut ne produire que quelques tokens par seconde. Pour de meilleures performances, envisagez d’exécuter Ollama sur un ordinateur plus puissant avec une carte graphique dédiée.

Crédit d’image : Unsplash. Captures d’écran par David Morelo.