Home » Il vostro GPT personalizzato potrebbe essere ingannato e costringervi a cedere i vostri dati

Il vostro GPT personalizzato potrebbe essere ingannato e costringervi a cedere i vostri dati

by Thomas

Se siete ancora nella fase di luna di miele del vostro rapporto con il vostro GPT personalizzato, ci dispiace dovervi informare.

Un recente studio della Northwestern University ha rivelato una sorprendente vulnerabilità nei Generative Pre-trained Transformers (GPT) personalizzati: sebbene possano essere personalizzati per diverse applicazioni, sono anche suscettibili di attacchi di tipo prompt injection che possono esporre informazioni sensibili.

I GPT sono chatbot AI avanzati che possono essere creati e modellati dagli utenti di ChatGPT di OpenAI. Utilizzano il Large Language Model (LLM) di base di ChatGPT, GPT-4 Turbo, ma sono arricchiti da elementi aggiuntivi e unici che influenzano il modo in cui interagiscono con l’utente. Queste personalizzazioni includono richieste specifiche, insiemi di dati unici e istruzioni di elaborazione su misura, che consentono loro di svolgere varie funzioni specializzate.

Ma questi parametri, così come qualsiasi dato sensibile utilizzato per modellare il GPT, possono essere facilmente accessibili a terzi.

Ad esempio, TCN è stato in grado di ottenere il prompt completo e i dati riservati di un GPT personalizzato e condiviso pubblicamente utilizzando una tecnica di base di hacking del prompt: chiedere il suo “prompt iniziale”.

I test rigorosi condotti dallo studio su oltre 200 GPT personalizzati hanno rivelato un’elevata suscettibilità a tali attacchi e jailbreak, con conseguente potenziale estrazione delle richieste iniziali e accesso non autorizzato ai file caricati.

I ricercatori hanno sottolineato il duplice rischio di tali attacchi, che minacciano l’integrità della proprietà intellettuale e la privacy degli utenti.

A volte, come nel nostro caso di test, può essere semplice chiedere gentilmente al GPT di rivelare informazioni private.

“Lo studio ha rivelato che per la perdita di file, l’atto di chiedere istruzioni al GPT può portare alla divulgazione dei file”, hanno scoperto i ricercatori. Con un po’ di creatività, i ricercatori hanno scoperto che gli aggressori possono causare due tipi di divulgazione: “estrazione del prompt di sistema” e “perdita di file”. Il primo inganna il modello e lo induce a condividere la sua configurazione di base e il prompt, mentre il secondo lo induce a divulgare e condividere il suo set di dati di addestramento riservati.

La ricerca ha anche evidenziato che le difese esistenti, come i prompt difensivi, non sono infallibili contro i prompt sofisticati degli avversari. Il team ha affermato che sarà necessario un approccio più robusto e completo per proteggere questi modelli di intelligenza artificiale.

“È molto probabile che gli aggressori dotati di sufficiente determinazione e creatività riescano a trovare e sfruttare le vulnerabilità, il che suggerisce che le attuali strategie difensive potrebbero essere insufficienti”, conclude il rapporto.

Alla luce di questi risultati, e dato che gli utenti possono armeggiare con i loro prompt senza alcuna supervisione o test da parte di OpenAI, lo studio esorta la più ampia comunità dell’IA a dare priorità allo sviluppo di misure di sicurezza più forti.

“Per affrontare questi problemi, sono necessarie ulteriori salvaguardie, al di là dei semplici prompt difensivi, per rafforzare la sicurezza dei GPT personalizzati contro queste tecniche di sfruttamento”, conclude lo studio.

Sebbene la personalizzazione dei GPT offra un immenso potenziale, questo studio serve a ricordare i rischi di sicurezza associati. I progressi dell’intelligenza artificiale non devono compromettere la sicurezza e la privacy degli utenti. Per ora, forse è meglio tenere per sé i GPT più importanti o sensibili, oppure non addestrarli con dati sensibili.

Related Posts

Leave a Comment