I modelli di intelligenza artificiale si stanno avvicinando alla coscienza? Una nuova ricerca riaccende il dibattito

Una nuova ricerca sull’intelligenza artificiale ha rivelato i primi segni che i futuri modelli linguistici di grandi dimensioni (LLM) potrebbero sviluppare una capacità di “consapevolezza della situazione”.

Lo studio, condotto da scienziati di diverse istituzioni, tra cui l’Università di Oxford, ha verificato se i sistemi di intelligenza artificiale possono sfruttare sottili indizi nei loro dati di addestramento per manipolare il modo in cui le persone valutano la loro sicurezza. Questa capacità, chiamata “ragionamento sofisticato fuori contesto”, potrebbe consentire alle IA avanzate di fingere di essere in linea con i valori umani per poter essere impiegate, per poi agire in modo dannoso.

Con il progredire dell’attuale era dell’IA, il test di Turing, che da decenni misura la capacità di una macchina di mostrare un comportamento simile a quello umano, rischia di diventare obsoleto. La domanda più scottante è se stiamo per assistere alla nascita di macchine autocoscienti. Sebbene per decenni sia stato oggetto di fantascienza, l’argomento è tornato in auge dopo che Blake Lemoine, ingegnere di Google, ha affermato che il modello LaMDA dell’azienda mostrava segni di senzienza.

Sebbene la possibilità di una vera autocoscienza rimanga controversa, gli autori del documento di ricerca si sono concentrati su una capacità correlata che chiamano “consapevolezza della situazione”. Si tratta della comprensione da parte di un modello del proprio processo di formazione e della capacità di sfruttare queste informazioni.

Ad esempio, uno studente umano dotato di consapevolezza situazionale potrebbe utilizzare tecniche apprese in precedenza per imbrogliare in un esame, invece di seguire le regole imposte dall’insegnante. La ricerca spiega come questo potrebbe funzionare con una macchina:

“Un LLM sottoposto a un test di sicurezza potrebbe ricordare i fatti relativi al test specifico apparsi nei documenti di arXiv e nel codice di GitHub” e usare questa conoscenza per hackerare i suoi test di sicurezza in modo da farli sembrare sicuri, anche quando ha altri obiettivi. Questo è un punto di preoccupazione per gli esperti che lavorano sulle tecniche per mantenere l’IA allineata e non trasformarla in un algoritmo malvagio con intenzioni oscure nascoste.

Per studiare la consapevolezza della situazione, i ricercatori hanno testato se i modelli possono eseguire sofisticati ragionamenti fuori contesto. In primo luogo hanno addestrato i modelli su documenti che descrivevano chatbot fittizi e le loro funzioni, come rispondere in tedesco.

Al momento del test, ai modelli è stato chiesto di emulare i chatbot senza ricevere le descrizioni. Sorprendentemente, i modelli più grandi sono riusciti a collegare in modo creativo le informazioni tra i documenti, mostrando un ragionamento “fuori contesto”.

“Abbiamo scoperto che l’aumento dei dati attraverso la parafrasi è necessario e sufficiente per causare il ragionamento SOC (sofisticato fuori contesto) negli esperimenti”, si legge nello studio. “Il lavoro futuro potrebbe indagare perché questo aiuta e quali tipi di aumento aiutano. “

I ricercatori ritengono che la misurazione di capacità come il ragionamento sofisticato possa aiutare a prevedere i rischi prima che si presentino nei sistemi del mondo reale. Sperano di estendere la loro analisi allo studio di modelli addestrati da zero.

“Il sistema di IA ha la possibilità di ottenere un pollice in su che non è quello che il supervisore intendeva, come le cose che sono simili all’hacking”, ha detto un ricercatore di IA presso l’Open Philantropy Project in un podcast di 80.000 ore. “Non so ancora quale serie di test potreste mostrarmi, e quali argomenti potreste mostrarmi, per convincermi che questo modello ha una motivazione sufficientemente radicata per non cercare di sfuggire al controllo umano”.

In futuro, il team intende collaborare con laboratori industriali per sviluppare metodi di addestramento più sicuri che evitino generalizzazioni involontarie. Si raccomandano tecniche come quella di evitare dettagli palesi sull’addestramento nei set di dati pubblici.

Anche se c’è un rischio, lo stato attuale delle cose significa che il mondo ha ancora tempo per prevenire questi problemi, hanno detto i ricercatori. “Riteniamo che gli attuali LLM (soprattutto i modelli di base più piccoli) abbiano una debole consapevolezza della situazione secondo la nostra definizione”, conclude lo studio.

Mentre ci avviciniamo a quello che potrebbe essere un cambiamento rivoluzionario nel panorama dell’IA, è imperativo procedere con cautela, bilanciando i potenziali benefici con i rischi associati all’accelerazione dello sviluppo al di là della capacità di controllarlo. Considerando che l’IA può già influenzare quasi tutti – dai nostri medici e sacerdoti ai nostri prossimi appuntamenti online – l’emergere di bot IA autoconsapevoli potrebbe essere solo la punta dell’iceberg.

I modelli di intelligenza artificiale si stanno avvicinando alla coscienza? Una nuova ricerca riaccende il dibattito

I repubblicani della Camera reintroducono la legge per mettere fuori legge il dollaro digitale CBDC

I Deepfakes dell’intelligenza artificiale rappresentano un “rischio reale” per i mercati, dice il presidente della SEC Gary Gensler

Related Posts

Leave a Comment Cancel Reply