Home » Wat is Q* en Q-Learning? OpenAI had kunnen imploderen door angst voor AI

Wat is Q* en Q-Learning? OpenAI had kunnen imploderen door angst voor AI

by Tim

Het was een bedrijfsspionageverhaal dat zelfs een echte scenarioschrijver niet had kunnen bedenken. OpenAI, dat vorig jaar de wereldwijde obsessie met AI aanwakkerde, kwam in het nieuws door het plotselinge ontslag en de uiteindelijke herplaatsing van Sam Altman, de CEO van het bedrijf.

Zelfs nu Altman terug is waar hij begon, blijft er een wervelende wolk van vragen hangen, waaronder wat er achter de schermen gebeurde.

Sommigen beschreven de chaos als een “Succession” of “Game of Thrones” strijd op HBO-niveau. Anderen speculeerden dat het kwam doordat Altman zijn aandacht verlegde naar andere bedrijven zoals Worldcoin.

Maar de laatste en meest overtuigende theorie zegt dat hij werd ontslagen vanwege één enkele brief: Q.

Ongenoemde bronnen vertelden aan Reuters dat OpenAI CTO Mira Murati zei dat een belangrijke ontdekking – omschreven als “Q Star” of “Q*” – de aanleiding was voor de stap tegen Altman, die werd uitgevoerd zonder deelname van bestuursvoorzitter Greg Brockman, die vervolgens uit protest ontslag nam bij OpenAI.

Wat is “Q*” in hemelsnaam en waarom zou ons dat iets kunnen schelen? Het gaat allemaal over de meest waarschijnlijke paden die de ontwikkeling van AI vanaf hier zou kunnen nemen.

Het mysterie van Q* ontsluieren

De raadselachtige Q* die wordt genoemd door OpenAI’s CTO Mira Murati heeft geleid tot ongebreidelde speculatie in de AI-gemeenschap. Deze term zou kunnen verwijzen naar een van de twee verschillende theorieën: Q-learning of het Q*-algoritme van het Maryland Refutation Proof Procedure System (MRPPS). Het begrijpen van het verschil tussen deze twee is cruciaal voor het begrijpen van de potentiële impact van Q*.

Theorie 1: Q-Leren

Q-leren is een vorm van ‘reinforcement learning’, een methode waarbij AI’s met vallen en opstaan beslissingen leren nemen. Bij Q-leren leert een agent beslissingen te nemen door de “kwaliteit” van actie-statuscombinaties in te schatten.

Bron: Simplilearn

Bron: Simplilearn


RLHF-diagram. Afbeelding: OpenAI” src=”https://www.todayscrypto.news/wp-content/uploads/2023/12/2.image5-5.png@webp.jpg” width=”828″ height=”362″ /☻

In mei publiceerde OpenAI een artikel waarin stond dat ze “een model hadden getraind om een nieuwe state-of-the-art te bereiken in het oplossen van wiskundige problemen door het belonen van elke juiste stap in de redenering in plaats van simpelweg het juiste eindantwoord te belonen”. Als ze Q-learning of een vergelijkbare methode zouden gebruiken om dit te bereiken, zou dat een hele nieuwe reeks problemen en situaties ontsluiten die ChatGPT van nature zou kunnen oplossen.

Theorie 2: Q*-algoritme van MRPPS

Het Q* algoritme is een onderdeel van het Maryland Refutation Proof Procedure System (MRPPS). Het is een geavanceerde methode voor het bewijzen van stellingen in AI, met name in vraag-antwoordsystemen.

“Het Q∗ algoritme genereert knooppunten in de zoekruimte, waarbij semantische en syntactische informatie wordt gebruikt om de zoekopdracht te sturen. Semantiek maakt het mogelijk om paden te beëindigen en vruchtbare paden te verkennen,” luidt het in het onderzoeksartikel.

Afbeelding: Jack Minker

Afbeelding: Jack Minker


Eén manier om het proces uit te leggen is door de fictieve detective Sherlock Holmes te beschouwen die een complexe zaak probeert op te lossen. Hij verzamelt aanwijzingen (semantische informatie) en verbindt deze logisch (syntactische informatie) om tot een conclusie te komen. Het Q*-algoritme werkt op vergelijkbare wijze in AI, waarbij semantische en syntactische informatie worden gecombineerd om complexe probleemoplossingsprocessen te doorlopen.

Dit zou impliceren dat OpenAI een stap dichter bij een model is dat in staat is om zijn realiteit te begrijpen voorbij louter tekstaanwijzingen en meer in lijn met de fictieve J.A.R.V.I.S (voor GenZers) of de Bat Computer (voor boomers).

Dus, terwijl Q-learning gaat over het aanleren van AI om te leren van interactie met zijn omgeving, gaat het Q-algoritme meer over het verbeteren van het deductieve vermogen van AI. Het begrijpen van dit onderscheid is de sleutel tot het waarderen van de potentiële implicaties van OpenAI’s “Q”. Beide hebben een enorm potentieel in het bevorderen van AI, maar hun toepassingen en implicaties verschillen aanzienlijk.

Dit alles is natuurlijk slechts speculatie, aangezien OpenAI het concept niet heeft uitgelegd en zelfs de geruchten dat Q* – wat het ook is – echt bestaat, niet heeft bevestigd of ontkend.

Potentiële implicaties van ‘Q’*

OpenAI’s geruchtmakende ‘Q*’ zou een enorme en gevarieerde impact kunnen hebben. Als het een geavanceerde vorm van Q-leren is, zou dit een sprong voorwaarts kunnen betekenen in het vermogen van AI om autonoom te leren en zich aan te passen in complexe omgevingen, waardoor een hele reeks nieuwe problemen kan worden opgelost. Een dergelijke vooruitgang zou AI-toepassingen kunnen verbeteren op gebieden zoals autonome voertuigen, waar het nemen van beslissingen in een fractie van een seconde op basis van steeds veranderende omstandigheden cruciaal is.

Aan de andere kant, als ‘Q’ betrekking heeft op het Q-algoritme uit MRPPS, zou dit een belangrijke stap voorwaarts kunnen betekenen voor het deductief redeneren en het probleemoplossend vermogen van AI. Dit zou vooral van invloed zijn op gebieden die diep analytisch denken vereisen, zoals juridische analyse, complexe gegevensinterpretatie en zelfs medische diagnose.

Ongeacht de precieze aard ervan, kan ‘Q*’ een belangrijke stap voorwaarts betekenen in de ontwikkeling van AI, dus het feit dat het centraal staat in een existentieel debat van OpenAI klopt. Het zou ons dichter bij AI-systemen kunnen brengen die intuïtiever en efficiënter zijn en taken kunnen uitvoeren waarvoor momenteel veel menselijke expertise nodig is. Dergelijke ontwikkelingen gaan echter gepaard met vragen en zorgen over AI-ethiek, veiligheid en de implicaties van steeds krachtigere AI-systemen in ons dagelijks leven en de maatschappij in het algemeen.

Het goede en het slechte van Q*

Mogelijke voordelen van Q*:

Verbeterde probleemoplossing en efficiëntie: Als Q* een geavanceerde vorm van Q-leren of het Q*-algoritme is, kan dit leiden tot AI-systemen die complexe problemen efficiënter oplossen, wat sectoren als gezondheidszorg, financiën en milieubeheer ten goede komt.

Betere samenwerking tussen mens en AI: Een AI met verbeterde leer- of deductieve vaardigheden zou het werk van mensen kunnen verbeteren, wat leidt tot effectievere samenwerking bij onderzoek, innovatie en dagelijkse taken.

Vooruitgang in automatisering: ‘Q*’ zou kunnen leiden tot geavanceerdere automatiseringstechnologieën die de productiviteit verbeteren en mogelijk nieuwe industrieën en werkgelegenheid creëren.

Risico’s en zorgen:

Ethische en veiligheidskwesties: Naarmate AI-systemen geavanceerder worden, wordt het een steeds grotere uitdaging om ervoor te zorgen dat ze ethisch en veilig werken. Er bestaat een risico op onbedoelde gevolgen, vooral als AI-acties niet perfect zijn afgestemd op menselijke waarden.

Privacy en beveiliging: Met geavanceerdere AI nemen de zorgen over privacy en gegevensbeveiliging toe. AI-systemen die in staat zijn om gegevens beter te begrijpen en er interactie mee te hebben, kunnen worden misbruikt. Stel je dus een AI voor die je romantische partner belt als je vreemdgaat, omdat het weet dat vreemdgaan slecht is.

Economische gevolgen: Toenemende automatisering en AI-capaciteiten kunnen leiden tot een verschuiving van banen in bepaalde sectoren, waardoor maatschappelijke aanpassingen en nieuwe benaderingen voor de ontwikkeling van arbeidskrachten nodig zijn. Als een AI bijna alles kan, waarom zou je dan nog menselijke werknemers hebben?

AI niet op één lijn: Het risico dat AI-systemen doelen of werkwijzen ontwikkelen die niet afgestemd zijn op de menselijke bedoelingen of het menselijk welzijn, wat tot schadelijke resultaten kan leiden. Stel je een schoonmaakrobot voor die geobsedeerd is door netheid en steeds je belangrijke papieren weggooit? Of die de makers van rommel helemaal elimineert?

De mythe van AGI

Waar staat OpenAI’s geruchtmakende Q* in het streven naar Artificial General Intelligence (AGI) – de heilige graal van AI-onderzoek?

AGI verwijst naar het vermogen van een machine om verschillende taken te begrijpen, te leren en intelligentie toe te passen, vergelijkbaar met menselijke cognitieve vaardigheden. Het is een vorm van AI die het leren kan veralgemenen van het ene domein naar het andere, wat getuigt van echt aanpassingsvermogen en veelzijdigheid.

Ongeacht of Q een geavanceerde vorm van Q-leren is of betrekking heeft op het Q-algoritme, is het essentieel om te begrijpen dat dit niet gelijk staat aan het bereiken van AGI. Hoewel ‘Q*’ een belangrijke stap voorwaarts kan betekenen in specifieke AI-capaciteiten, omvat AGI een breder scala aan vaardigheden en begrip.

AGI bereiken zou betekenen dat je een AI ontwikkelt die elke intellectuele taak kan uitvoeren die een mens kan uitvoeren – een ongrijpbare mijlpaal.

Een machine die AGI heeft bereikt, is zich niet bewust van zijn eigen bestaan en kan nog niet verder redeneren dan de grenzen van zijn voorgetrainde gegevens en door mensen ingestelde algoritmen. Dus nee, ondanks de ophef is “Q” nog niet de voorbode van onze AI-overwinnaars; het is meer een slimme broodrooster die geleerd heeft zijn eigen brood te smeren.

Wat betreft AGI die het einde van de beschaving inluiden, overschatten we misschien ons belang in de kosmische pikorde. OpenAI’s Q* is misschien een stap dichter bij de AI van onze dromen (of nachtmerries), maar het is nog niet de AGI die zal nadenken over de zin van het leven of zijn eigen siliciumbestaan.

Vergeet niet dat dit dezelfde OpenAI is die voorzichtig naar haar ChatGPT kijkt als een ouder die naar een peuter met een stift kijkt – trots, maar voortdurend bezorgd dat het op de muren van de mensheid zal tekenen. Hoewel “Q*” een sprong voorwaarts is, is AGI nog een sprong verwijderd en is de muur van de mensheid voorlopig veilig.

Related Posts

Leave a Comment