Voorbij Bard: Google lanceert Gemini, een multimodale AI om ChatGPT uit te dagen

by Patricia januari 5, 2024

written by Patricia januari 5, 2024

Google verbaasde de techwereld woensdag met het debuut van Gemini, zijn suite van multimodale kunstmatige intelligentietools voor consumenten en bedrijven.

Onder de techgiganten die zich agressief op AI storten, leek zoekgigant Google in het midden te zwemmen, terwijl het door Microsoft gesteunde OpenAI ChatGPT naar Turbo duwde en Vision en Anthropic Claude opwaardeerden. Vanaf vandaag komt Google met drie versies van Gemini-Nano, Pro en Ultra, die tekst, afbeeldingen, audio en video naadloos begrijpen en integreren.

Gemini lijkt klaar om de beste AI-modellen van OpenAI te overtreffen. OpenAI heeft net een waslijst aan nieuwe mogelijkheden uitgebracht, maar werd al snel bedolven onder bedrijfsintriges.

De meest geavanceerde versie, Gemini Ultra, leverde sterke resultaten in verschillende populaire benchmarks en evenaarde of overtrof in sommige gevallen de menselijke prestaties. Het behaalde bijvoorbeeld nieuwe records op 30 van de 32 benchmarks in het MMLU examen, dat een verscheidenheid aan academische onderwerpen omvat.

Een belangrijk kenmerk van Gemini is de “native multimodale” training, waardoor het meerdere gegevenstypen zoals tekst, afbeeldingen en audio als in- en uitvoer kan verwerken. Deze benadering betekent dat het model vanaf nul is opgebouwd en getraind om verschillende inputs te begrijpen, in plaats van het resultaat van het later samenbrengen van discrete modi en modules.

De populairste multimodale AI’s van dit moment volgen het laatste stappenplan. ChatGPT combineert bijvoorbeeld GPT-4 Turbo met Dall-E 3 om tekst te verwerken tot afbeeldingen, GPT-4 Vision om afbeeldingen te verwerken en een speciale coderingsmodule voor berekeningen. Als gevolg hiervan wordt de LLM gedegradeerd tot de rol van coördinator tussen verschillende AI-modellen die niet onafhankelijk de volledige aard van een specifiek probleem kunnen begrijpen.

Deze beperking kan ook leiden tot kwetsbaarheden zoals prompt injection. Er zijn bijvoorbeeld technieken om de veiligheidscontroles voor tekstmeldingen te omzeilen door deze op een stuk papier te schrijven of af te drukken, er een foto van te maken en de visuele module te vragen deze te verwerken.

Google Gemini laat geweldige scores zien in AI-benchmarks. Afbeelding: Google

Daarentegen laten vroege kwalitatieve evaluaties van Gemini zien dat het opmerkelijk goed in staat is om crossmodaal te redeneren. In educatieve omgevingen kan Gemini bijvoorbeeld complexe natuurkundige problemen begrijpen, ze omzetten in wiskundige formules en correcte oplossingen bieden. Dit vermogen opent transformatieve paden in het onderwijs en op andere gebieden.

Traditionele LLM’s zijn meestal niet erg goed in wiskunde, dus de redeneercapaciteiten van de Gemini-familie van multimodale LLM’s verdienen enige aandacht.

In een andere benchmarktest gericht op multimodaal taalbegrip behaalde Gemini Ultra een nauwkeurigheid van meer dan 90%, waarmee andere bestaande modellen werden overtroffen. Google beweert dat menselijke voorkeurstests ook een duidelijke voorkeur voor Gemini lieten zien boven modellen als PaLM 2 op gebieden als creatief schrijven.

De kleinere service, Gemini Nano, is ontworpen voor efficiëntie op het apparaat en blinkt uit in samenvattingen, begrijpend lezen en verschillende redeneertaken. Ondanks het kleinere formaat laat Gemini Nano opmerkelijke prestaties zien in vergelijking met het grotere Gemini Pro-model. Dit betekent dat Gemini wel eens de AI bij uitstek zou kunnen worden voor mobiele assistenten die offline kunnen of moeten werken.

Gemini ziet eruit als een zeer sterk debuut, hoe je het ook bekijkt. En naarmate Google’s AI-mogelijkheden worden verbeterd, zou hun veelzijdigheid nieuwe toepassingen op vele gebieden mogelijk kunnen maken. Voorlopig zijn er echter nog meer tests in de praktijk nodig om de realistische prestatieniveaus te bepalen.

Gebruikers kunnen vandaag een verfijnde versie van Gemini Pro testen met Bard. Gemini Ultra wordt volgend jaar uitgebracht in een nieuwe versie van Google’s chatbot genaamd Bard Advanced. Google verwacht Gemini uiteindelijk in meer dan 170 verschillende talen te lanceren en de technologie te gebruiken om zijn Pixel Lineup en de Search Generative Experience aan te drijven.

Voorbij Bard: Google lanceert Gemini, een multimodale AI om ChatGPT uit te dagen

Platform voor cryptospellen Portal voegt medeoprichter Rockstar toe temidden van razernij rond airdrops

FaZe Clan-oprichter Banks zegt dat Ethereum ‘groot percentage’ van zijn nettowaarde is

Related Posts

Leave a Comment Cancel Reply