Informes
Cómo aprovechan los piratas informáticos las funciones de los chatbots para restaurar los chats cifrados de OpenAI ChatGPT, Microsoft Copilot y la mayoría de los demás chatbots de IA.
¿Qué información se puede extraer de los mensajes de chatbot de IA interceptados?
Naturalmente, los chatbots envían mensajes de forma cifrada. De todos modos, la implementación de grandes modelos de lenguaje (LLM) y los chatbots basados en ellos albergan una serie de funciones que debilitan gravemente el cifrado. Al combinarse, estas funciones permiten llevar a cabo un ataque de canal lateral cuando el contenido de un mensaje se restaura a partir de fragmentos de información filtrada.
Para comprender lo que sucede durante este ataque, debemos profundizar un poco en los detalles de los LLM y el funcionamiento de los chatbots. Lo primero que debes saber es que los LLM no funcionan con caracteres individuales o palabras como tales, sino con tokens, que pueden describirse como unidades semánticas de texto.
Si has interactuado con los chatbots de IA seguramente conocerás la segunda función que facilita este ataque: no envían respuestas largas, sino de forma gradual, casi como si una persona las estuviera escribiendo. Pero a diferencia de una persona, los LLM escriben en tokens, no en caracteres individuales. Es decir que los chatbots envían tokens generados en tiempo real, uno tras otro; o, mejor dicho, la mayoría de los chatbots lo hacen. La excepción es Google Gemini, lo que lo hace invulnerable a este ataque.
La tercera peculiaridad es la siguiente: en el momento de la publicación del artículo, la mayoría de los chatbots no usaban compresión, codificación ni relleno (incorporación de datos basura a un texto significativo para reducir la previsibilidad y aumentar la fuerza criptográfica) antes de cifrar un mensaje.
Los ataques de canal lateral aprovechan estas tres peculiaridades. Aunque los mensajes de chatbot interceptados no se pueden descifrar, los atacantes pueden extraer datos útiles de ellos, específicamente, la longitud de cada token enviado por el chatbot. El resultado es similar al de un rompecabeza de la ruleta de la suerte. No se puede ver qué está cifrado exactamente, pero se revela la longitud de los tokens de palabras individuales.
Uso de información extraída para restaurar el texto del mensaje
Lo único que resta es adivinar qué palabras se esconden detrás de los tokens. Y adivina quiénes son buenos para las adivinanzas: exacto, los LLM. De hecho, esta es su finalidad principal en la vida: adivinar las palabras correctas en el contexto dado. Entonces, para restaurar el texto del mensaje original a partir de la secuencia resultante de longitudes de tokens, los investigadores recurrieron a un LLM.
A dos LLM, para ser precisos, ya que los investigadores observaron que los primeros mensajes en las conversaciones con los chatbots casi siempre siguen una fórmula y, por lo tanto, pueden adivinarse fácilmente por medio de un modelo especialmente entrenado con una variedad de mensajes introductorios generados por modelos de lenguaje populares. Por lo tanto, el primer modelo se utiliza para restaurar los mensajes introductorios y pasarlos al segundo modelo, que se encarga del resto de la conversación.
Se produce un texto en el que las longitudes de los tokens se corresponden con las del mensaje original. Sin embargo, las palabras específicas se descifran a la fuerza con diversos niveles de éxito. Ten en cuenta que es poco frecuente que el mensaje restaurado coincida exactamente con el original.