Home » Tu GPT personalizada podría ser engañada para ceder tus datos

Tu GPT personalizada podría ser engañada para ceder tus datos

by Thomas

Si todavía estás en la fase de luna de miel de tu relación con tu GPT personalizado, lamentamos tener que contártelo.

Un estudio reciente de la Universidad Northwestern ha revelado una vulnerabilidad sorprendente en los Transformadores Generativos Preentrenados (GPT) personalizados: aunque se pueden personalizar para diversas aplicaciones, también son susceptibles de sufrir ataques de inyección puntual que pueden exponer información sensible.

Los GPT son chatbots de IA avanzados que pueden ser creados y moldeados por los usuarios de ChatGPT de OpenAI. Utilizan el Large Language Model (LLM) central de ChatGPT, GPT-4 Turbo, pero están mejorados con elementos adicionales y únicos que influyen en su forma de interactuar con el usuario. Estas personalizaciones incluyen mensajes específicos, conjuntos de datos únicos e instrucciones de procesamiento a medida, lo que les permite desempeñar diversas funciones especializadas.

Pero esos parámetros, así como cualquier dato sensible que pueda utilizar para dar forma a su GPT, pueden ser fácilmente accesibles por terceros.

Por ejemplo, TCN pudo obtener el prompt completo y los datos confidenciales de una GPT personalizada y compartida públicamente utilizando una técnica básica de pirateo de prompt: preguntar por su «prompt inicial».


Las rigurosas pruebas realizadas por el estudio en más de 200 GPT personalizadas revelaron una alta susceptibilidad a este tipo de ataques y a los jailbreaks, lo que provocaba la posible extracción de los mensajes iniciales y el acceso no autorizado a los archivos cargados.

Los investigadores hicieron hincapié en el doble riesgo de este tipo de ataques, que amenazan la integridad de la propiedad intelectual y la privacidad de los usuarios.

A veces, como en nuestro caso de prueba, puede ser tan fácil como pedir amablemente al GPT que revele información privada.

«El estudio reveló que, en el caso de la filtración de archivos, el acto de pedir instrucciones a la GPT podía conducir a la revelación de archivos», descubrieron los investigadores. Con algo de creatividad, los investigadores descubrieron que los atacantes pueden causar dos tipos de revelaciones: «extracción de instrucciones del sistema» y «filtración de archivos». El primero engaña al modelo para que comparta su configuración básica y su mensaje, mientras que el segundo le obliga a revelar y compartir su conjunto de datos de entrenamiento confidenciales.

La investigación también puso de relieve que las defensas existentes, como los avisos defensivos, no son infalibles contra los avisos sofisticados de los adversarios. Según el equipo, esto requerirá un enfoque más sólido y exhaustivo para proteger estos modelos de IA.

«Es muy probable que atacantes con suficiente determinación y creatividad encuentren y exploten vulnerabilidades, lo que sugiere que las estrategias defensivas actuales pueden ser insuficientes», concluye el informe.

A la luz de estos resultados, y dado que los usuarios pueden jugar con sus mensajes sin supervisión ni pruebas de OpenAI, el estudio insta a la comunidad de la IA en general a dar prioridad al desarrollo de medidas de seguridad más estrictas.

«Para hacer frente a estos problemas, se necesitan salvaguardias adicionales, más allá del alcance de las simples instrucciones defensivas, para reforzar la seguridad de las GPT personalizadas frente a estas técnicas de explotación», concluye el estudio.

Aunque la personalización de las GPT ofrece un inmenso potencial, este estudio sirve como recordatorio crucial de los riesgos de seguridad asociados. Los avances en IA no deben comprometer la seguridad y la privacidad de los usuarios. Por ahora, tal vez sea mejor reservarse las GPT más importantes o delicadas, o no entrenarlas con datos confidenciales.

Related Posts

Leave a Comment