Cómo ejecutar tu propio LLM local en una Raspberry Pi

Computadora Raspberry Pi

Desde el asombroso lanzamiento de ChatGPT 3 de OpenAI a finales de 2022, los Modelos de Lenguaje Grande (LLMs) han capturado la imaginación del mundo al demostrar capacidades notables, desde escribir ensayos hasta responder preguntas complejas.

Sin embargo, no necesitas depender de empresas como OpenAI, Google o Anthropic ni compartir datos potencialmente personales para aprovechar el poder de los LLMs. Con solo una asequible Raspberry Pi, puedes configurar tu propio asistente de AI basado en chat local. Esta guía te muestra cómo.

Tabla de Contenidos

Lo que necesitarás
Instalar Ollama
Descargar y ejecutar un LLM
Usar un LLM local en tu Raspberry Pi

Lo que necesitarás

Para configurar tu propio LLM en una Raspberry Pi, hay algunos componentes esenciales que necesitarás:

Raspberry Pi: Dado que los LLMs son intensivos en recursos, es mejor utilizar la Raspberry Pi más potente disponible para un rendimiento óptimo. En el momento de escribir este artículo, se recomienda la Raspberry Pi 5 con 8 GB de RAM.
Tarjeta microSD con Raspberry Pi OS: Para un rendimiento máximo, considera usar la versión lite de Raspberry Pi OS, ya que no es necesaria una interfaz gráfica de usuario para ejecutar un LLM (puedes interactuar con él de forma remota utilizando un terminal y SSH). Sin embargo, si estás utilizando tu Raspberry Pi para otras tareas o como tu computadora principal, puedes usar la versión regular de Raspberry Pi OS. Nuestra guía sobre cómo configurar Raspberry Pi OS en una Raspberry Pi puede ayudarte a comenzar.
Componentes adicionales: Aparte de la Raspberry Pi y una tarjeta microSD rápida, necesitarás una fuente de alimentación confiable (se recomienda la oficial), un teclado, un ratón y un monitor para la configuración inicial (opcional si usas SSH), y una conexión a internet para descargar el software y modelos necesarios.

Con estos componentes a mano, estás listo para comenzar a configurar tu propio LLM en tu Raspberry Pi.

Instalar Ollama

El primer paso para configurar tu propio LLM en una Raspberry Pi es instalar el software necesario. Actualmente, las dos opciones más populares para ejecutar LLMs localmente son llama.cpp y Ollama.

llama.cpp es una implementación ligera en C++ del LLaMA (Adaptador de Modelo de Lenguaje Grande) de Meta que puede ejecutarse en una amplia gama de hardware, incluida la Raspberry Pi. Fue desarrollado por Georgi Gerganov y lanzado en marzo de 2023.
Ollama, por otro lado, está construido en torno a llama.cpp, ofreciendo varias características amigables para el usuario. Maneja automáticamente las solicitudes de chat en el formato que cada modelo espera y carga y descarga modelos a demanda según la solicitud del cliente. Ollama también gestiona la descarga y el almacenamiento en caché de modelos, incluidos modelos cuantizados, para que puedas solicitarlos por nombre.

Para esta guía, utilizaremos Ollama debido a su facilidad de uso y características adicionales.

Para instalar Ollama en tu Raspberry Pi, abre una ventana de terminal en tu Raspberry Pi. Si usas SSH, conéctate a tu Raspberry Pi usando tu cliente SSH preferido. Luego, ingresa el siguiente comando en la terminal:

curl -fsSL https://ollama.com/install.sh |sh

Este comando descarga y ejecuta el script de instalación desde el sitio web oficial de Ollama. El script instalará automáticamente las dependencias necesarias y configurará Ollama en tu Raspberry Pi.

Instalación de Ollama finalizada

Descargar y ejecutar un LLM

Con Ollama instalado, es hora de descargar un modelo de lenguaje grande. Si estás utilizando una Raspberry Pi con 8 GB de RAM, puedes ejecutar modelos con hasta 7 mil millones de parámetros (los ajustes que la IA utiliza para determinar sus salidas).

Algunas opciones populares incluyen Mistral (7B), Gemma (7B o 2B), Llama 2 sin censura (7B), o Phi-3 de Microsoft (3.8B). Puedes ver todos los modelos admitidos en la página de la biblioteca de Ollama.

Para esta guía, utilizaremos el modelo Phi-3 de Microsoft. A pesar de su tamaño pequeño y eficiencia, Phi-3 es un modelo extremadamente capaz. Para instalarlo, simplemente ejecuta el siguiente comando en la terminal:

ollama run phi3

Este comando descargará e instalará el modelo Phi-3, y también iniciará automáticamente una sesión de chat interactiva con el modelo.

Descarga de Ollama Phi3

Usar un LLM local en tu Raspberry Pi

Después de descargar e instalar el modelo Phi-3, verás un aviso en la terminal que se verá así:

>>> Envía un mensaje (/? para ayuda)

Esto significa que el LLM está funcionando y esperando tu entrada. Para comenzar a interactuar con el modelo, escribe tu mensaje y presiona Enter.

Ollama respondiendo a una pregunta

Aquí hay algunos consejos para redactar mensajes efectivos:

Sé específico: Proporciona instrucciones o preguntas claras y detalladas para ayudar al LLM a entender lo que estás buscando.
Establece el contexto: Dale al LLM algo de información de fondo o un escenario para ayudarlo a generar respuestas más relevantes.
Define roles: Especifica el papel que el LLM debería asumir en su respuesta, como narrador, docente o experto técnico.

Para finalizar la sesión del LLM, presiona Ctrl + d o ingresa el comando /bye. Si deseas comenzar otra sesión más tarde, solo abre un nuevo terminal y ejecuta el comando ollama run phi3. Dado que el modelo ya está descargado, se iniciará rápidamente sin necesidad de descargarlo de nuevo.

Ten en cuenta que el rendimiento de la Raspberry Pi 5 tiene sus límites, y solo puede generar unos pocos tokens por segundo. Para un mejor rendimiento, considera ejecutar Ollama en una computadora más potente con una tarjeta gráfica dedicada.