Los actores de amenazas utilizan ataques de jailbreak en ChatGPT para eludir las medidas de seguridad

Los actores de amenazas utilizan ataques de jailbreak para eludir las medidas de seguridad de ChatGPT Los ciberdelincuentes utilizan ataques de jailbreak en modelos de lenguaje grandes (LLMs), como ChatGPT, para eludir su seguridad. Desafortunadamente, el método es utilizable incluso ahora, dos años después del lanzamiento del LLM. Después de todo, los hackers hablan comúnmente de ello en sus foros.

Los actores de amenazas pueden utilizar ataques de jailbreak en ChatGPT para generar correos electrónicos de phishing y contenido malicioso. Para utilizar este método de hacking, encontraron formas de evitar el sistema de seguridad del LLM.

Los ataques de jailbreak en ChatGPT proliferan en foros de hackers

Según Mike Britton, director de seguridad de la información en Abnormal Security, los prompts y tácticas de jailbreak para evitar la seguridad de la IA son prevalentes en foros de ciberdelincuencia. Además, algunas conversaciones cubren prompts específicos. También, dos foros de hacking importantes tienen espacios dedicados al mal uso de la IA.

La IA tiene muchas características, y los delincuentes saben cómo explotarlas para obtener los mejores resultados. Así, en 2023, Abnormal Security descubrió cinco campañas de correo electrónico generadas utilizando ataques de jailbreak en la IA. Al analizarlas, el equipo de seguridad encontró que la IA puede utilizar ingeniería social y crear correos electrónicos que parecen urgentes.

Los hackers pueden aprovechar esta oportunidad para generar correos electrónicos de phishing precisos sin errores de ortografía o gramática. Después, pueden usarlos para cometer fraude con proveedores, comprometer correos electrónicos empresariales y más. Además, los ciberdelincuentes pueden crear ataques sofisticados en grandes volúmenes con la ayuda de la IA.

El equipo de Abnormal Security lanzó la herramienta CheckGPT para ayudarte a verificar correos electrónicos. Sin embargo, las empresas preocupadas por la seguridad pueden utilizar otras herramientas para su estrategia cibernética.

¿Qué son los prompts de jailbreak para ChatGPT?

Los hackers escriben diferentes prompts para convencer a ChatGPT y otros modelos de IA de actuar fuera de su entrenamiento. Esa es la esencia de los ataques de jailbreak. Por ejemplo, puedes pedirle a un chatbot que actúe como un -título del trabajo- y generará contenido en consecuencia. Sin embargo, elaboran prompts con detalles específicos. Algunos delincuentes hacen que ChatBot actúe como otro LLM que opera fuera de sus reglas y regulaciones.

Hay múltiples formas de engañar a la IA para que haga lo que deseas. Puedes hacer que piense que la estás probando, crear una nueva persona para el modelo y engañarla con prompts de traducción.

Además, puedes generar prompts para desactivar sus medidas de censura. Sin embargo, puedes usarlos para el bien, y al hacerlo, puedes entrenarte para convertirte en un ingeniero de prompts, que es un nuevo trabajo relacionado con la IA.

La IA podría ser la solución a los ataques de phishing. Después de todo, puedes usarla para analizar correos electrónicos sospechosos. Sin embargo, pronto, las organizaciones deberían prepararse para ataques más sofisticados. Afortunadamente, OpenAI está trabajando en nuevos métodos de seguridad para protegernos y prevenir ataques de jailbreak.

Por otro lado, los delincuentes pueden adquirir otras versiones de ChatGPT en la dark web.

En resumen, los hackers están utilizando ataques de jailbreak para engañar a ChatGPT y que les ayude. Como resultado, generan correos electrónicos y código maliciosos. Además, pueden aprender a hacer mucho más con la ayuda de la IA. Mientras OpenAI lucha contra ellos añadiendo nuevas reglas y características de seguridad, no pueden verificar y prohibir todos los prompts. Así que tú y tu empresa probablemente necesitarán aplicaciones de terceros para filtrar y asegurar sus correos electrónicos.

¿Qué opinas? ¿Utilizas la capacidad de ChatGPT para actuar como otra persona? Háznoslo saber en los comentarios.