Home » OpenAI verbetert ChatGPT: De AI-chatbot kan nu “zien, horen en spreken”.

OpenAI verbetert ChatGPT: De AI-chatbot kan nu “zien, horen en spreken”.

by Tim

OpenAI heeft de langverwachte upgrades uitgerold waarmee de populaire ChatGPT chatbot kan communiceren met beelden en stemmen. Deze lancering is een belangrijke stap in de richting van OpenAI’s visie voor kunstmatige algemene intelligentie die informatie kan waarnemen en verwerken op meerdere manieren, niet alleen tekst.

“We beginnen met het uitrollen van nieuwe spraak- en beeldmogelijkheden in ChatGPT. Ze bieden een nieuw, meer intuïtief type interface door je in staat te stellen een spraakgesprek te voeren of ChatGPT te laten zien waar je het over hebt,” aldus OpenAI in haar officiële blogpost.

OpenAI zei dat de nieuwe ChatGPT-Plus voicechat zal bevatten, aangedreven door een nieuw tekst-naar-spraak model dat menselijke stemmen kan nabootsen, en de mogelijkheid om afbeeldingen te bespreken dankzij integratie met de beeldgeneratiemodellen van het bedrijf. De nieuwe functies lijken deel uit te maken van wat bekend staat als GPT Vision (of GPT-V, dat vaak wordt verward met een theoretische GPT-5) en zijn belangrijke onderdelen van de verbeterde multimodale versie van GPT-4 die OpenAI eerder dit jaar teasete.

Deze upgrade komt vlak nadat OpenAI DALL-E 3 onthulde, zijn meest geavanceerde tekst-naar-beeld generator tot nu toe. DALL-E 3, die door de eerste testers als “waanzinnig” werd bestempeld vanwege de kwaliteit en nauwkeurigheid, kan natuurgetrouwe afbeeldingen maken van tekstaanvragen terwijl het complexe context en concepten in natuurlijke taal begrijpt. Het zal worden ingebouwd in ChatGPT Plus, een abonnementsdienst die een ChatGPT biedt die wordt aangedreven door GPT-4.

De integratie van DALL-E 3 en spraakchat is een teken van OpenAI’s streven naar AI-assistenten die de wereld meer kunnen waarnemen zoals mensen dat doen – met meerdere zintuigen. Volgens het bedrijf: “Spraak en beeld geven je meer manieren om ChatGPT in je leven te gebruiken. Maak een foto van een bezienswaardigheid tijdens het reizen en voer een live gesprek over wat er interessant aan is.”

Microsoft voedt de AI-race met OpenAI-integratie

OpenAI’s grootste geldschieter, Microsoft, gaat ook verder met het integreren van OpenAI’s geavanceerde generatieve AI-mogelijkheden in zijn eigen consumentenproducten. Tijdens het recente herfstevenement kondigde Microsoft AI-upgrades aan voor Windows 11, Office en Bing Search, waarbij gebruik wordt gemaakt van modellen als DALL-E 3 (in beeldbewerkingsprogramma’s zoals Microsofts vernieuwde Paint) en Copilot, de programmeerassistent van OpenAI.

Dit sluit aan bij Microsofts investering van meer dan $10 miljard in OpenAI, met als doel de AI-assistent-race te leiden. Het debuut van Copilot in Windows 11 op 26 september belooft AI-hulp beschikbaar te maken op alle platforms en apparaten van Microsoft. Ondertussen maakt Microsoft 365 Chat gebruik van OpenAI’s natuurlijke taalvaardigheden om complexe werktaken te automatiseren.
Zoals eerder gemeld door TCN, zei Microsoft dat de “Microsoft 365 Chat je hele universum van gegevens op het werk doorkamt, inclusief e-mails, vergaderingen, chats, documenten en meer, plus het web.”

Voorzichtige stappen naar verantwoorde AI

OpenAI is zich echter terdege bewust van de potentiële risico’s van krachtigere multimodale AI-systemen waarbij vision en spraak worden gegenereerd. Impersonatie, vooringenomenheid en afhankelijkheid van visuele interpretatie zijn belangrijke punten van zorg.

“Het doel van OpenAI is om AGI te bouwen die veilig en nuttig is”, schreef het bedrijf in zijn aankondiging. “We geloven in het geleidelijk beschikbaar maken van onze tools, waardoor we in de loop van de tijd verbeteringen kunnen aanbrengen en risicobeperkingen kunnen verfijnen, terwijl we iedereen voorbereiden op krachtigere systemen in de toekomst.”

Zoals TCN eerder meldde, stelt OpenAI ook een rood team samen om te werken aan manieren om schadelijke gevolgen van onjuist gebruik van zijn AI-producten te voorkomen. CEO Sam Altman heeft ook over de hele wereld gelobbyd voor gunstige wetgeving.

OpenAI zei dat Plus en Enterprise gebruikers de komende twee weken toegang krijgen tot deze nieuwe functionaliteiten, met plannen om de beschikbaarheid daarna uit te breiden naar ontwikkelaars. En nu Google ook zijn eigen revolutionaire multimodale LLM, Gemini, heeft aangekondigd, begint de race om de AI-industrie te domineren pas

Related Posts

Leave a Comment