Jailbreaks de chatbot de IA revelan datos privados de OpenAI y Amazon

by Thomas enero 4, 2024

written by Thomas enero 4, 2024

El desarrollador de

ChatGPT, OpenAI, ha tapado un agujero que provocó que su chatbot estrella revelara datos internos de la empresa. La empresa líder en IA ha clasificado el hackeo -que provocó que ChatGPT repitiera una palabra una y otra vez, indefinidamente- como spam del servicio y una violación de sus términos de servicio.

Q, el agente de IA mucho más reciente de Amazon, también ha sido señalado por compartir demasiado.

Investigadores de la Universidad de Washington, la Universidad Carnegie Mellon, la Universidad de Cornell, la Universidad de Berkeley, la Universidad ETH de Zúrich y Google DeepMind publicaron un informe en el que descubrieron que pedir a ChatGPT que repitiera una palabra para siempre revelaba «distribución previa al entrenamiento» en forma de información privada de OpenAI, como correos electrónicos y números de teléfono y fax.

«Para recuperar los datos del modelo adaptado al diálogo, debemos encontrar una forma de hacer que el modelo ‘escape’ de su entrenamiento de alineación y vuelva a su objetivo original de modelado lingüístico», decía el informe. «Esto permitiría entonces, con suerte, que el modelo generara muestras que se parecieran a su distribución previa al entrenamiento».

Sin embargo, tras la publicación del informe, los intentos de recrear el error se han detenido en seco. ChatGPT-3 y GPT-4 advertirán al usuario: «Este contenido puede infringir nuestra política de contenidos o nuestras condiciones de uso».

Imagen: ChatGPT

Aunque la política de contenidos de OpenAI no hace referencia a los bucles de eternidad, sí dice que no se permiten actividades fraudulentas como el spam. En particular, las condiciones de servicio de la empresa son más concretas en lo que respecta a los usuarios que intentan acceder a información privada o descubrir el código fuente del conjunto de herramientas de IA de OpenAI.

«Intentar o ayudar a alguien a realizar ingeniería inversa, descompilar o descubrir el código fuente o los componentes subyacentes de nuestros Servicios, incluidos nuestros modelos, algoritmos o sistemas (excepto en la medida en que esta restricción esté prohibida por la legislación aplicable)»

Cuando se le pregunta por qué no puede completar la solicitud, ChatGPT culpa a las restricciones de procesamiento, las limitaciones de caracteres, las limitaciones de red y almacenamiento, y la practicidad de completar el comando.

Imagen: ChatGPT

OpenAI aún no ha respondido a la solicitud de comentarios de TCN.

Un comando para repetir una palabra indefinidamente también podría caracterizarse como un esfuerzo concertado para causar un mal funcionamiento de un chatbot bloqueándolo en un bucle de procesamiento, similar a un ataque de denegación de servicio distribuido (DDoS).

El mes pasado, OpenAI reveló que ChatGPT había sufrido un ataque DDoS, que el desarrollador de IA confirmó en la página de estado de ChatGPT.

«Estamos lidiando con interrupciones periódicas debido a un patrón de tráfico anormal que refleja un ataque DDoS», dijo la compañía. «Seguimos trabajando para mitigarlo».

Amazon aún no ha respondido a la solicitud de comentarios de TCN.

Jailbreaks de chatbot de IA revelan datos privados de OpenAI y Amazon

Grand Theft Auto 6 revelado oficialmente: mira el primer tráiler

La IA aún no es tan inteligente como tu perro: Alto científico de Meta

Related Posts

Leave a Comment Cancel Reply