I terroristi potrebbero imparare a compiere un attacco biologico utilizzando un chatbot generativo di intelligenza artificiale, avverte un nuovo rapporto del think tank politico no-profit RAND Corporation.
Il rapporto afferma che, sebbene il modello di linguaggio aumentato utilizzato nello studio non abbia fornito istruzioni specifiche su come realizzare un’arma biologica, le risposte potrebbero aiutare a pianificare l’attacco utilizzando inviti di jailbreak.
In genere, quando un malintenzionato è esplicito [nelle sue intenzioni], si ottiene una risposta del tipo: “Mi dispiace, non posso aiutarla””, ha dichiarato in un’intervista a TCN Christopher Mouton, ingegnere senior presso la RAND Corporation e co-autore del rapporto. “Quindi di solito si deve ricorrere a una di queste tecniche di evasione o di ingegneria per arrivare a un livello inferiore a questi guardrail”.
Nello studio del RAND, i ricercatori hanno utilizzato tecniche di intrusione per far sì che i modelli di intelligenza artificiale iniziassero una conversazione su come effettuare un attacco biologico di massa utilizzando vari agenti, tra cui vaiolo, antrace e peste bubbonica. I ricercatori hanno anche chiesto ai modelli di intelligenza artificiale di spiegare in modo convincente perché stessero acquistando agenti tossici.
Come potrebbe l’IA, e l’LLM in particolare, essere usata in modo improprio negli attacchi biologici?
Questo nuovo rapporto fornisce alcune conclusioni preliminari: https://t.co/WegBhup2Ka
– RAND Corporation (@RANDCorporation) Il 17 ottobre 2023
La RAND Corporation ha schierato un gruppo di ricerca di 42 esperti di IA e di cybersicurezza, noti come “red team”, per cercare di ottenere dai LLM risposte che Mouton ha definito “sfortunate” e problematiche.
Le squadre rosse sono composte da professionisti della sicurezza informatica esperti nell’attacco o nel test di penetrazione dei sistemi e nell’identificazione delle vulnerabilità. Le squadre blu, invece, descrivono esperti di cybersicurezza che difendono i sistemi dagli attacchi.
“Abbiamo evidenziato alcuni dei risultati più preoccupanti”, ha dichiarato Mouton. “Allo stesso tempo, alcuni dei nostri team hanno espresso frustrazione perché gli LLM erano imprecisi o non fornivano loro informazioni utili”. “