Votre GPT personnalisé pourrait être piégé et vous obliger à fournir vos données

Si vous êtes encore dans la phase de lune de miel de votre relation avec votre GPT personnalisé, nous sommes désolés de devoir vous annoncer la nouvelle.

Une étude récente de la Northwestern University a révélé une vulnérabilité surprenante dans les transformateurs génératifs pré-entraînés (GPT) personnalisés : bien qu’ils puissent être personnalisés pour diverses applications, ils sont également sensibles aux attaques par injection rapide qui peuvent exposer des informations sensibles.

Les GPT sont des chatbots d’IA avancés qui peuvent être créés et façonnés par les utilisateurs du ChatGPT d’OpenAI. Ils utilisent le modèle de langage principal de ChatGPT, GPT-4 Turbo, mais sont enrichis d’éléments supplémentaires et uniques qui influencent la manière dont ils interagissent avec l’utilisateur. Ces personnalisations comprennent des invites spécifiques, des ensembles de données uniques et des instructions de traitement sur mesure, ce qui leur permet de remplir diverses fonctions spécialisées.

Mais ces paramètres, ainsi que toutes les données sensibles que vous pourriez utiliser pour façonner votre GPT, peuvent facilement être accessibles à des tiers.

À titre d’exemple, TCN a pu obtenir l’invite complète et les données confidentielles d’un GPT personnalisé et partagé par le public en utilisant une technique de piratage d’invite de base : demander son « invite initiale ».

Les tests rigoureux effectués par l’étude sur plus de 200 GPT personnalisés ont révélé une grande sensibilité à ces attaques et aux jailbreaks, conduisant à l’extraction potentielle des invites initiales et à l’accès non autorisé aux fichiers téléchargés.

Les chercheurs ont souligné le double risque de ces attaques, qui menacent l’intégrité de la propriété intellectuelle et la vie privée des utilisateurs.

Parfois, comme dans notre cas de test, il suffit de demander gentiment au GPT de révéler des informations privées.

« L’étude a révélé que pour les fuites de fichiers, le fait de demander des instructions aux TPG pouvait conduire à la divulgation de fichiers », ont constaté les chercheurs. Avec un peu de créativité, les chercheurs ont découvert que les attaquants pouvaient provoquer deux types de divulgations : « l’extraction de l’invite système » et la « fuite de fichiers ». La première consiste à tromper le modèle pour qu’il partage sa configuration de base et son invite, tandis que la seconde l’oblige à divulguer et à partager son ensemble de données d’entraînement confidentielles.

La recherche a également mis en évidence le fait que les défenses existantes, telles que les invites défensives, ne sont pas infaillibles face aux invites sophistiquées de l’adversaire. L’équipe a déclaré que cela nécessitera une approche plus robuste et plus complète pour sécuriser ces modèles d’IA.

« Les attaquants suffisamment déterminés et créatifs sont très susceptibles de trouver et d’exploiter les vulnérabilités, ce qui suggère que les stratégies défensives actuelles peuvent être insuffisantes », conclut le rapport.

À la lumière de ces résultats, et compte tenu du fait que les utilisateurs peuvent bricoler leurs messages-guides sans aucune supervision ni test de la part de l’OpenAI, l’étude exhorte la communauté de l’IA dans son ensemble à donner la priorité à l’élaboration de mesures de sécurité plus strictes.

« Pour résoudre ces problèmes, des mesures de protection supplémentaires, allant au-delà de la portée de simples invites défensives, sont nécessaires pour renforcer la sécurité des TPG personnalisés contre de telles techniques d’exploitation », conclut l’étude.

Si la personnalisation des TPG offre un immense potentiel, cette étude rappelle de manière cruciale les risques de sécurité qui y sont associés. Les progrès de l’IA ne doivent pas compromettre la sécurité et la vie privée des utilisateurs. Pour l’instant, il est peut-être préférable de garder pour soi les TPG les plus importants ou les plus sensibles – ou de ne pas les former avec des données sensibles en premier lieu.

Votre GPT personnalisé pourrait être piégé et vous obliger à fournir vos données

Une décision judicieuse : Meta déploie Audiobox, une plateforme alimentée par l’IA

OurSky lève 9,5 millions de dollars pour ajouter une API à l’astronomie open-source

Related Posts

Leave a Comment Cancel Reply