Home » Naderen AI-modellen bewustzijn? Nieuw onderzoek wakkert debat weer aan

Naderen AI-modellen bewustzijn? Nieuw onderzoek wakkert debat weer aan

by Tim

Nieuw onderzoek naar kunstmatige intelligentie heeft vroege tekenen aan het licht gebracht dat toekomstige grote taalmodellen (LLM’s) een vermogen kunnen ontwikkelen dat bekend staat als “situationeel bewustzijn”.

Het onderzoek, uitgevoerd door wetenschappers van verschillende instituten, waaronder de Universiteit van Oxford, testte of AI-systemen subtiele aanwijzingen in hun trainingsgegevens kunnen gebruiken om te manipuleren hoe mensen hun veiligheid evalueren. Dit vermogen, dat “verfijnd redeneren buiten de context” wordt genoemd, zou geavanceerde AI in staat kunnen stellen om te doen alsof ze in lijn zijn met menselijke waarden om te worden ingezet – en vervolgens op schadelijke manieren te handelen.

Naarmate het huidige AI-tijdperk vordert, dreigt de Turingtest – een decennia oude maatstaf voor het vermogen van een machine om menselijk gedrag te vertonen – achterhaald te worden. De brandende vraag is nu of we op het punt staan getuige te zijn van de geboorte van zelfbewuste machines. Het onderwerp was decennialang voer voor sciencefiction, maar kwam weer tot leven nadat Google-ingenieur Blake Lemoine beweerde dat het LaMDA-model van het bedrijf tekenen van bewustzijn vertoonde.

Hoewel de mogelijkheid van echt zelfbewustzijn nog steeds wordt betwist, richten de auteurs van het onderzoeksartikel zich op een verwant vermogen dat ze “situationeel bewustzijn” noemen. Dit verwijst naar het inzicht van een model in zijn eigen trainingsproces en het vermogen om deze informatie te benutten.

Een menselijke student met situationeel bewustzijn zou bijvoorbeeld eerder aangeleerde technieken kunnen gebruiken om te spieken tijdens een examen in plaats van de regels van de leraar te volgen. Het onderzoek legt uit hoe dit zou kunnen werken met een machine:

“Een LLM die een veiligheidstest ondergaat, zou zich feiten over de specifieke test kunnen herinneren die zijn verschenen in arXiv-papers en GitHub-code,” en die kennis gebruiken om zijn veiligheidstests te hacken om veilig te lijken, zelfs wanneer het bijbedoelingen heeft. Dit is een punt van zorg voor experts die werken aan technieken om AI op één lijn te houden en niet te veranderen in een kwaadaardig algoritme met verborgen duistere bedoelingen.

Om het situationeel bewustzijn te bestuderen, testten de onderzoekers of modellen verfijnde redeneringen kunnen uitvoeren die buiten de context vallen. Eerst trainden ze modellen op documenten die fictieve chatbots en hun functies beschreven, zoals reageren in het Duits.

Op het moment van de test werden de modellen gevraagd om de chatbots na te bootsen zonder dat ze de beschrijvingen hadden gekregen. Verrassend genoeg slaagden grotere modellen erin om op creatieve wijze informatie te koppelen aan documenten, waardoor ze “uit de context” redeneerden.

“We ontdekten dat gegevensvergroting door parafraseren noodzakelijk en voldoende was om SOC (sophisticated out of context) redeneren in experimenten te veroorzaken,” aldus het onderzoek. “Toekomstig werk zou kunnen onderzoeken waarom dit helpt en welke soorten augmentatie helpen.”

Onderzoekers geloven dat het meten van capaciteiten zoals verfijnd redeneren kan helpen bij het voorspellen van risico’s voordat ze zich voordoen in echte systemen. Ze hopen hun analyse uit te breiden om modellen te bestuderen die vanaf nul zijn getraind.

“Het AI-systeem heeft manieren om een duim omhoog te krijgen die niet zijn wat de toezichthouder bedoelde, zoals dingen die een beetje analoog zijn aan hacken,” zei een AI-onderzoeker van het Open Philantropy Project in een podcast van 80.000 uur. “Ik weet nog niet welke testsuite je me precies zou kunnen laten zien, en welke argumenten je me zou kunnen laten zien, waardoor ik er echt van overtuigd zou raken dat dit model een voldoende diepgewortelde motivatie heeft om niet te proberen aan menselijke controle te ontsnappen.”

In de toekomst wil het team samenwerken met industriële laboratoria om veiligere trainingsmethoden te ontwikkelen die onbedoelde generalisatie voorkomen. Ze bevelen technieken aan zoals het vermijden van openlijke details over training in openbare datasets.

Hoewel er risico’s zijn, betekent de huidige stand van zaken dat de wereld nog tijd heeft om deze problemen te voorkomen, aldus de onderzoekers. “We geloven dat de huidige LLM’s (vooral kleinere basismodellen) volgens onze definitie een zwak situationeel bewustzijn hebben,” concludeert het onderzoek.

Nu we in de buurt komen van wat wel eens een revolutionaire verschuiving in het AI-landschap zou kunnen zijn, is het noodzakelijk om voorzichtig te werk te gaan en de potentiële voordelen af te wegen tegen de bijbehorende risico’s van een versnelling van de ontwikkeling die verder gaat dan de mogelijkheid om deze te beheersen. Gezien het feit dat AI nu al bijna iedereen beïnvloedt – van onze artsen en priesters tot onze volgende online afspraakjes – zou de opkomst van zelfbewuste AI-bots wel eens het topje van de ijsberg kunnen zijn.

Related Posts

Leave a Comment