Como Executar Seu Próprio LLM Local em um Raspberry Pi

Desde o lançamento surpreendente do ChatGPT 3 pela OpenAI no final de 2022, os Modelos de Linguagem de Grande Escala (LLMs) têm capturado a imaginação do mundo, demonstrando capacidades notáveis, desde a redação de ensaios até a resposta a perguntas complexas.
No entanto, você não precisa depender de empresas como OpenAI, Google ou Anthropic e compartilhar dados pessoais potencialmente sensíveis para aproveitar o poder dos LLMs. Com apenas um acessível Raspberry Pi, você pode configurar seu próprio assistente de chat baseado em IA local. Este guia mostra como.
Índice
- O que você vai precisar
- Instalar Ollama
- Baixar e executar um LLM
- Usando um LLM local em seu Raspberry Pi
O que você vai precisar
Para configurar seu próprio LLM em um Raspberry Pi, há alguns componentes essenciais que você precisará:
- Raspberry Pi: Como os LLMs são intensivos em recursos, é melhor usar o Raspberry Pi mais potente disponível para um desempenho ideal. No momento em que escrevo este artigo, o Raspberry Pi 5 com 8 GB de RAM é a escolha recomendada.
- Cartão microSD com Raspberry Pi OS: Para o máximo desempenho, considere usar a versão lite do Raspberry Pi OS, pois uma interface gráfica não é necessária para executar um LLM (você pode interagir com ele remotamente usando um terminal e SSH). No entanto, se você estiver usando seu Raspberry Pi para outras tarefas ou como seu computador principal, pode usar a versão regular do Raspberry Pi OS. Nosso guia sobre como configurar o Raspberry Pi OS em um Raspberry Pi pode ajudá-lo a começar.
- Componentes adicionais: Além do Raspberry Pi e um cartão microSD rápido, você precisará de uma fonte de alimentação confiável (a oficial é recomendada), um teclado, mouse e monitor para a configuração inicial (opcional se você estiver usando SSH) e uma conexão à internet para baixar o software e os modelos necessários.
Com esses componentes à mão, você está pronto para começar a configurar seu próprio LLM em seu Raspberry Pi.
Instalar Ollama
O primeiro passo para configurar seu próprio LLM em um Raspberry Pi é instalar o software necessário. Atualmente, as duas escolhas mais populares para executar LLMs localmente são llama.cpp e Ollama.
- llama.cpp é uma implementação leve em C++ do LLaMA (Adaptador de Modelo de Linguagem Grande) da Meta, que pode rodar em uma ampla gama de hardware, incluindo Raspberry Pi. Foi desenvolvido por Georgi Gerganov e lançado em março de 2023.
- Ollama, por outro lado, é construído em torno do llama.cpp, oferecendo vários recursos amigáveis ao usuário. Ele automaticamente gerencia o template das solicitações de chat para o formato que cada modelo espera, e carrega e descarrega modelos sob demanda com base na solicitação do cliente. Ollama também gerencia o download e cache de modelos, incluindo modelos quantizados, para que você possa solicitá-los pelo nome.
Para este guia, iremos usar Ollama devido à sua facilidade de uso e recursos adicionais.
Para instalar o Ollama em seu Raspberry Pi, abra uma janela de terminal em seu Raspberry Pi. Se você estiver usando SSH, conecte-se ao seu Raspberry Pi usando o cliente SSH de sua preferência. Em seguida, digite o seguinte comando no terminal:
curl -fsSL https://ollama.com/install.sh |shEste comando baixa e executa o script de instalação do site oficial do Ollama. O script instalará automaticamente as dependências necessárias e configurará o Ollama em seu Raspberry Pi.

Baixar e Executar um LLM
Com o Ollama instalado, é hora de baixar um modelo de linguagem grande. Se você estiver usando um Raspberry Pi com 8 GB de RAM, poderá executar modelos com até 7 bilhões de parâmetros (as configurações que a IA usa para determinar suas saídas).
Algumas escolhas populares incluem Mistral (7B), Gemma (7B ou 2B), Llama 2 sem censura (7B) ou Phi-3 da Microsoft (3.8B). Você pode ver todos os modelos suportados na página da biblioteca do Ollama.
Para este guia, usaremos o modelo Phi-3 da Microsoft. Apesar de seu pequeno tamanho e eficiência, o Phi-3 é um modelo extremamente capaz. Para instalá-lo, basta executar o seguinte comando no terminal:
ollama run phi3Este comando irá baixar e instalar o modelo Phi-3, e também iniciará automaticamente uma sessão de chat interativa com o modelo.

Usando um LLM Local em Seu Raspberry Pi
Após baixar e instalar o modelo Phi-3, você verá um prompt no terminal que se parece com isto:
>>> Envie uma mensagem (/? para ajuda)Isso significa que o LLM está funcionando e aguardando sua entrada. Para começar a interagir com o modelo, digite sua mensagem e pressione Enter.

Aqui estão algumas dicas para elaborar prompts eficazes:
- Seja específico: Forneça instruções ou perguntas claras e detalhadas para ajudar o LLM a entender o que você está procurando.
- Defina o contexto: Dê ao LLM algumas informações de fundo ou um cenário para ajudá-lo a gerar respostas mais relevantes.
- Defina papéis: Especifique o papel que o LLM deve assumir em sua resposta, como contador de histórias, professor ou especialista técnico.
Para encerrar a sessão do LLM, pressione Ctrl + d ou digite o comando /bye. Se você desejar iniciar outra sessão mais tarde, basta abrir um novo terminal e executar o comando ollama run phi3. Como o modelo já está baixado, ele iniciará rapidamente sem precisar ser baixado novamente.
Lembre-se de que o desempenho do Raspberry Pi 5 tem seus limites e ele pode apenas produzir alguns tokens por segundo. Para um desempenho melhor, considere rodar o Ollama em um computador mais poderoso com uma placa gráfica dedicada.
Crédito da imagem: Unsplash. Capturas de tela de David Morelo.