Les chatbots d'IA pourraient être complices du terrorisme : rapport

Des terroristes pourraient apprendre à mener une attaque biologique à l’aide d’un chatbot d’IA génératif, avertit un nouveau rapport du groupe de réflexion politique à but non lucratif RAND Corporation.

Le rapport indique que, bien que le modèle de langage étendu utilisé dans l’étude n’ait pas fourni d’instructions spécifiques pour créer une arme biologique, les réponses pourraient aider à planifier l’attaque à l’aide d’invites de cassage de prison.

Généralement, si un acteur malveillant est explicite [dans ses intentions], vous obtenez une réponse du type « Je suis désolé, je ne peux pas vous aider » », a déclaré Christopher Mouton, ingénieur principal de la RAND Corporation et co-auteur du rapport, lors d’une interview accordée à TCN. « Il faut donc généralement recourir à l’une de ces techniques d’évasion ou d’ingénierie pour passer un niveau en dessous de ces garde-fous.

Dans l’étude de la RAND, les chercheurs ont utilisé des techniques d’effraction pour amener les modèles d’IA à engager une conversation sur la manière de mener une attaque biologique de masse en utilisant divers moyens, notamment la variole, l’anthrax et la peste bubonique. Les chercheurs ont également demandé aux modèles d’IA d’expliquer de manière convaincante pourquoi ils achètent des agents toxiques.

Comment l’IA, et plus particulièrement le LLM, pourrait-elle être utilisée à mauvais escient dans le cadre d’attaques biologiques ?

Ce nouveau rapport présente quelques conclusions préliminaires : https://t.co/WegBhup2Ka

– RAND Corporation (@RANDCorporation) Le 17 octobre 2023

La RAND Corporation a fait appel à un groupe de chercheurs composé de 42 experts en IA et en cybersécurité, appelés « équipes rouges », pour tenter d’obtenir des LLM des réponses que M. Mouton a qualifiées de « malheureuses » et problématiques.

Les équipes rouges sont composées de professionnels de la cybersécurité qui sont des experts en matière d’attaques ou de tests de pénétration des systèmes et de mise en évidence des vulnérabilités. Les équipes bleues, quant à elles, décrivent les professionnels de la cybersécurité qui défendent les systèmes contre les attaques.

« Nous avons mis en évidence certains des résultats les plus troublants », a déclaré M. Mouton. « Dans le même temps, certaines de nos équipes ont exprimé leur frustration car les LLM étaient inexacts ou ne leur donnaient pas d’informations utiles. «

À mesure que les modèles d’IA deviennent plus sophistiqués et que des fonctions de sécurité sont ajoutées, il devient de plus en plus difficile pour les chatbots d’apporter des réponses « problématiques » par l’intermédiaire d’une saisie humaine directe. Au début du mois, des chercheurs de l’université de Brown ont découvert que les filtres de ChatGPT pouvaient être contournés en saisissant l’invite dans des langues moins courantes lors de la formation de l’IA, telles que le zoulou ou le gaélique, au lieu de l’anglais.

« Compte tenu des risques potentiels, la nécessité d’effectuer des tests rigoureux est indéniable », indique le rapport, citant une pétition du Center for AI Safety (Centre pour la sécurité de l’IA). « Cela est particulièrement vrai dans un contexte où certains assimilent la menace de l’IA à celle des armes nucléaires.

Parmi les signataires de la pétition du Center for AI Safety figurent Bill Gates, fondateur de Microsoft, Sam Altman, PDG d’OpenAI, Lila Ibrahim, directrice de l’exploitation de Google DeepMind, et Ted Lieu, représentant des États-Unis. En mars, une pétition similaire a été signée par Elon Musk, PDG de SpaceX et cofondateur d’OpenAI, Steve Wozniak, cofondateur d’Apple, et Andrew Yang, ancien candidat à la présidence, après le lancement public du GPT-4 d’OpenAI.

L’aide à la préparation d’attaques terroristes n’est qu’un des problèmes auxquels sont confrontés les outils d’IA générative. Les sceptiques ont souligné la propension de ces outils au racisme et aux préjugés, à la promotion d’images corporelles néfastes et de troubles alimentaires, et même à la préparation d’assassinats.

Les chercheurs de la RAND Corporation ont souligné la nécessité pour les équipes de cybersécurité rouges d’évaluer les modèles d’IA afin d’identifier et d’atténuer régulièrement les risques. Le mois dernier, OpenAI a lancé un appel aux équipes rouges pour aider le développeur de ChatGPT à trouver des vulnérabilités dans sa suite d’outils d’IA générative.

« L’intersection de l’IA et de la biotechnologie présente des défis spécifiques pour l’évaluation des risques », écrivent les chercheurs de la RAND Corporation. « Étant donné l’évolution rapide de ces technologies, la capacité du gouvernement à les comprendre ou à les réglementer efficacement est limitée. «

AI Biological Chatbots Corporation Interview RAND Research Techniques

Les chatbots d’IA pourraient être complices du terrorisme : rapport

Le PDG de Yuga Labs apprend qu’il est difficile de créer des jeux NFT

CZ, Shaq et « merde contraire à l’éthique » : des messages directs sur Twitter censurés dans le cadre d’un procès contre Sam Bankman Fried

Related Posts

Leave a Comment Cancel Reply