Como Executar Seu Próprio LLM Local em um Raspberry Pi

Computador Raspberry Pi

Desde o lançamento surpreendente do ChatGPT 3 pela OpenAI no final de 2022, os Modelos de Linguagem de Grande Escala (LLMs) têm capturado a imaginação do mundo, demonstrando capacidades notáveis, desde a redação de ensaios até a resposta a perguntas complexas.

No entanto, você não precisa depender de empresas como OpenAI, Google ou Anthropic e compartilhar dados pessoais potencialmente sensíveis para aproveitar o poder dos LLMs. Com apenas um acessível Raspberry Pi, você pode configurar seu próprio assistente de chat baseado em IA local. Este guia mostra como.

Índice

O que você vai precisar
Instalar Ollama
Baixar e executar um LLM
Usando um LLM local em seu Raspberry Pi

O que você vai precisar

Para configurar seu próprio LLM em um Raspberry Pi, há alguns componentes essenciais que você precisará:

Raspberry Pi: Como os LLMs são intensivos em recursos, é melhor usar o Raspberry Pi mais potente disponível para um desempenho ideal. No momento em que escrevo este artigo, o Raspberry Pi 5 com 8 GB de RAM é a escolha recomendada.
Cartão microSD com Raspberry Pi OS: Para o máximo desempenho, considere usar a versão lite do Raspberry Pi OS, pois uma interface gráfica não é necessária para executar um LLM (você pode interagir com ele remotamente usando um terminal e SSH). No entanto, se você estiver usando seu Raspberry Pi para outras tarefas ou como seu computador principal, pode usar a versão regular do Raspberry Pi OS. Nosso guia sobre como configurar o Raspberry Pi OS em um Raspberry Pi pode ajudá-lo a começar.
Componentes adicionais: Além do Raspberry Pi e um cartão microSD rápido, você precisará de uma fonte de alimentação confiável (a oficial é recomendada), um teclado, mouse e monitor para a configuração inicial (opcional se você estiver usando SSH) e uma conexão à internet para baixar o software e os modelos necessários.

Com esses componentes à mão, você está pronto para começar a configurar seu próprio LLM em seu Raspberry Pi.

Instalar Ollama

O primeiro passo para configurar seu próprio LLM em um Raspberry Pi é instalar o software necessário. Atualmente, as duas escolhas mais populares para executar LLMs localmente são llama.cpp e Ollama.

llama.cpp é uma implementação leve em C++ do LLaMA (Adaptador de Modelo de Linguagem Grande) da Meta, que pode rodar em uma ampla gama de hardware, incluindo Raspberry Pi. Foi desenvolvido por Georgi Gerganov e lançado em março de 2023.
Ollama, por outro lado, é construído em torno do llama.cpp, oferecendo vários recursos amigáveis ao usuário. Ele automaticamente gerencia o template das solicitações de chat para o formato que cada modelo espera, e carrega e descarrega modelos sob demanda com base na solicitação do cliente. Ollama também gerencia o download e cache de modelos, incluindo modelos quantizados, para que você possa solicitá-los pelo nome.

Para este guia, iremos usar Ollama devido à sua facilidade de uso e recursos adicionais.

Para instalar o Ollama em seu Raspberry Pi, abra uma janela de terminal em seu Raspberry Pi. Se você estiver usando SSH, conecte-se ao seu Raspberry Pi usando o cliente SSH de sua preferência. Em seguida, digite o seguinte comando no terminal:

curl -fsSL https://ollama.com/install.sh |sh

Este comando baixa e executa o script de instalação do site oficial do Ollama. O script instalará automaticamente as dependências necessárias e configurará o Ollama em seu Raspberry Pi.

Instalação do Ollama Finalizada

Baixar e Executar um LLM

Com o Ollama instalado, é hora de baixar um modelo de linguagem grande. Se você estiver usando um Raspberry Pi com 8 GB de RAM, poderá executar modelos com até 7 bilhões de parâmetros (as configurações que a IA usa para determinar suas saídas).

Algumas escolhas populares incluem Mistral (7B), Gemma (7B ou 2B), Llama 2 sem censura (7B) ou Phi-3 da Microsoft (3.8B). Você pode ver todos os modelos suportados na página da biblioteca do Ollama.

Para este guia, usaremos o modelo Phi-3 da Microsoft. Apesar de seu pequeno tamanho e eficiência, o Phi-3 é um modelo extremamente capaz. Para instalá-lo, basta executar o seguinte comando no terminal:

ollama run phi3

Este comando irá baixar e instalar o modelo Phi-3, e também iniciará automaticamente uma sessão de chat interativa com o modelo.

Download do Ollama Phi3

Usando um LLM Local em Seu Raspberry Pi

Após baixar e instalar o modelo Phi-3, você verá um prompt no terminal que se parece com isto:

>>> Envie uma mensagem (/? para ajuda)

Isso significa que o LLM está funcionando e aguardando sua entrada. Para começar a interagir com o modelo, digite sua mensagem e pressione Enter.

Ollama Respondendo a uma Pergunta

Aqui estão algumas dicas para elaborar prompts eficazes:

Seja específico: Forneça instruções ou perguntas claras e detalhadas para ajudar o LLM a entender o que você está procurando.
Defina o contexto: Dê ao LLM algumas informações de fundo ou um cenário para ajudá-lo a gerar respostas mais relevantes.
Defina papéis: Especifique o papel que o LLM deve assumir em sua resposta, como contador de histórias, professor ou especialista técnico.

Para encerrar a sessão do LLM, pressione Ctrl + d ou digite o comando /bye. Se você desejar iniciar outra sessão mais tarde, basta abrir um novo terminal e executar o comando ollama run phi3. Como o modelo já está baixado, ele iniciará rapidamente sem precisar ser baixado novamente.

Lembre-se de que o desempenho do Raspberry Pi 5 tem seus limites e ele pode apenas produzir alguns tokens por segundo. Para um desempenho melhor, considere rodar o Ollama em um computador mais poderoso com uma placa gráfica dedicada.

Crédito da imagem: Unsplash. Capturas de tela de David Morelo.