Home » OpenAI rüstet ChatGPT auf: Der KI-Chatbot kann jetzt “sehen, hören und sprechen”

OpenAI rüstet ChatGPT auf: Der KI-Chatbot kann jetzt „sehen, hören und sprechen“

by Patricia

OpenAI hat die mit Spannung erwarteten Upgrades eingeführt, die es dem beliebten Chatbot ChatGPT ermöglichen, mit Bildern und Stimmen zu interagieren. Diese Einführung stellt einen wichtigen Schritt in Richtung der Vision von OpenAI dar, eine künstliche, allgemeine Intelligenz zu schaffen, die Informationen auf verschiedene Arten wahrnehmen und verarbeiten kann, nicht nur durch Text.

„Wir beginnen mit der Einführung der neuen Sprach- und Bildfunktionen in ChatGPT. Sie bieten eine neue, intuitivere Art von Schnittstelle, indem sie es Ihnen ermöglichen, eine Sprachkonversation zu führen oder ChatGPT zu zeigen, worüber Sie sprechen“, sagte OpenAI in seinem offiziellen Blog-Post.

OpenAI sagte, dass das neue ChatGPT-Plus einen Voice-Chat beinhaltet, der durch ein neuartiges Text-to-Speech-Modell angetrieben wird, das in der Lage ist, menschliche Stimmen zu imitieren, sowie die Möglichkeit, dank der Integration der Bilderzeugungsmodelle des Unternehmens Bilder zu diskutieren. Die neuen Funktionen scheinen Teil des so genannten GPT-Vision (oder GPT-V, das oft mit dem theoretischen GPT-5 verwechselt wird) zu sein und stellen Schlüsselkomponenten der verbesserten multimodalen Version von GPT-4 dar, die OpenAI Anfang des Jahres angekündigt hatte

Dieses Upgrade kommt direkt nach der Vorstellung von DALL-E 3, dem bisher fortschrittlichsten Text-Bild-Generator von OpenAI. DALL-E 3 wurde von frühen Testern aufgrund seiner Qualität und Genauigkeit als „wahnsinnig“ bezeichnet und kann aus Textaufforderungen detailgetreue Bilder erstellen, während es gleichzeitig komplexe Zusammenhänge und Konzepte in natürlicher Sprache versteht. Es wird in ChatGPT Plus integriert, einem abonnementbasierten Dienst, der ein ChatGPT auf der Grundlage von GPT-4 anbietet

Die Integration von DALL-E 3 und ChatGPT bedeutet, dass OpenAI auf KI-Assistenten setzt, die die Welt mehr wie Menschen wahrnehmen können – mit mehreren Sinnen. Das Unternehmen sagt dazu: „Sprache und Bilder geben Ihnen mehr Möglichkeiten, ChatGPT in Ihrem Leben zu nutzen. Machen Sie auf Reisen ein Foto von einer Sehenswürdigkeit und führen Sie ein Live-Gespräch darüber, was daran interessant ist. „

Microsoft treibt das KI-Rennen mit OpenAI-Integration voran

OpenAIs größter Geldgeber, Microsoft, treibt auch die Integration der fortschrittlichen generativen KI-Funktionen von OpenAI in seine eigenen Verbraucherprodukte voran. Auf seiner jüngsten Herbstveranstaltung kündigte Microsoft KI-Upgrades für Windows 11, Office und die Bing-Suche an, die Modelle wie DALL-E 3 (in Bildbearbeitungsprogrammen wie Microsofts überarbeitetem Paint) und Copilot, den Programmierassistenten von OpenAI, nutzen.

Dies passt zu Microsofts Investition von mehr als 10 Milliarden Dollar in OpenAI, mit der das Unternehmen die Führung im Rennen um KI-Assistenten übernehmen will. Das Debüt von Copilot in Windows 11 am 26. September verspricht, KI-Hilfe auf allen Plattformen und Geräten von Microsoft verfügbar zu machen. In der Zwischenzeit nutzt Microsoft 365 Chat die natürlichen Sprachfähigkeiten von OpenAI, um komplexe Arbeitsaufgaben zu automatisieren

Wie bereits von TCN berichtet, sagte Microsoft, dass „Microsoft 365 Chat Ihr gesamtes Datenuniversum bei der Arbeit durchkämmt, einschließlich E-Mails, Meetings, Chats, Dokumente und mehr, sowie das Web“.

Vorsichtige Schritte auf dem Weg zu verantwortungsvoller KI

OpenAI ist sich jedoch der potenziellen Risiken von leistungsfähigeren multimodalen KI-Systemen, die Bild- und Spracherkennung beinhalten, sehr bewusst. Nachahmung, Voreingenommenheit und die Abhängigkeit von der visuellen Interpretation sind die Hauptprobleme.

„Das Ziel von OpenAI ist es, sichere und nützliche KI zu entwickeln“, schreibt das Unternehmen in seiner Ankündigung. „Wir glauben daran, unsere Werkzeuge schrittweise zur Verfügung zu stellen, was es uns ermöglicht, Verbesserungen vorzunehmen und die Risikominderung im Laufe der Zeit zu verfeinern, während wir uns gleichzeitig auf leistungsfähigere Systeme in der Zukunft vorbereiten.“

Wie TCN bereits berichtete, stellt OpenAI ein rotes Team zusammen, um schädliche Folgen einer unsachgemäßen Nutzung seiner KI-Produkte zu verhindern. CEO Sam Altman hat außerdem weltweit Lobbyarbeit für eine günstige Gesetzgebung betrieben.

Laut OpenAI werden Plus- und Enterprise-Benutzer in den nächsten zwei Wochen Zugang zu diesen neuen Funktionen haben, danach soll die Verfügbarkeit für Entwickler erweitert werden. Und da Google auch sein eigenes revolutionäres multimodales LLM, Gemini, angekündigt hat, hat das Rennen um die Vorherrschaft in der KI-Industrie gerade erst begonnen

Related Posts

Leave a Comment