Google verblüffte die Tech-Welt am Mittwoch mit dem Debüt von Gemini, seiner für Verbraucher und Unternehmen konzipierten Suite von multimodalen Tools für künstliche Intelligenz.
Unter den Tech-Giganten, die aggressiv in den Bereich der künstlichen Intelligenz vordringen, schien der Suchtitan Google im Mittelfeld zu schwimmen, da die von Microsoft unterstützte OpenAI ChatGPT auf Turbo und Vision und Anthropic auf Claude aufrüsteten. Heute startet Google mit drei Versionen von Gemini – Nano, Pro und Ultra – die nahtlos Text, Bilder, Audio und Video verstehen und integrieren.
Gemini scheint in der Lage zu sein, die Spitzen-KI-Modelle von OpenAI zu übertreffen, die gerade erst eine lange Liste neuer Funktionen veröffentlicht haben, aber bald darauf in Unternehmensintrigen untergingen.
Die am weitesten fortgeschrittene Version, Gemini Ultra, lieferte in mehreren gängigen Benchmarks starke Ergebnisse, die in einigen Fällen die menschliche Leistung erreichten oder übertrafen. So wurden beispielsweise bei 30 von 32 Benchmarks der MMLU-Prüfung, die eine Vielzahl von akademischen Fächern abdeckt, neue Rekorde aufgestellt.
Ein Hauptmerkmal von Gemini ist sein „natives multimodales“ Training, das es ihm ermöglicht, mehrere Datentypen wie Text, Bilder und Audio als Input und Output zu verarbeiten. Dieser Ansatz bedeutet, dass das Modell von Grund auf aufgebaut und trainiert wurde, um verschiedene Eingaben zu verstehen, und nicht das Ergebnis einer späteren Zusammenführung einzelner Modi und Module ist.
Die beliebtesten multimodalen KIs von heute folgen dem letztgenannten Ansatz. ChatGPT zum Beispiel kombiniert GPT-4 Turbo mit Dall-E 3, um Text zu verarbeiten und Bilder zu erzeugen, GPT-4 Vision, um Bilder zu verarbeiten, und ein spezielles Kodierungsmodul für Berechnungen. Infolgedessen wird der LLM in die Rolle eines Koordinators zwischen verschiedenen KI-Modellen gedrängt, die nicht in der Lage sind, unabhängig voneinander die gesamte Natur eines spezifischen Problems zu verstehen.
Diese Einschränkung kann auch zu Schwachstellen wie Prompt Injection führen. Beispielsweise können Techniken zur Umgehung der Sicherheitskontrollen für Textaufforderungen eingesetzt werden, indem sie auf ein Stück Papier geschrieben oder gedruckt werden, ein Foto gemacht und das visuelle Modul mit der Verarbeitung beauftragt wird.

Google Gemini schneidet in KI-Benchmarks hervorragend ab. Bild: Google
Im Gegensatz dazu zeigen frühe qualitative Bewertungen von Gemini seine bemerkenswerte Fähigkeit, modusübergreifende Schlussfolgerungen zu ziehen. Im Bildungsbereich kann Gemini zum Beispiel komplexe physikalische Probleme verstehen, sie in mathematische Formeln umwandeln und korrekte Lösungen liefern. Diese Fähigkeit eröffnet neue Wege im Bildungswesen und in anderen Bereichen.
Herkömmliche LLMs sind in der Regel nicht sehr gut in Mathematik, daher verdienen die Argumentationsfähigkeiten der Gemini-Familie multimodaler LLMs einige Aufmerksamkeit.
In einem weiteren Benchmark-Test, der sich auf das multimodale Sprachverständnis konzentrierte, erreichte Gemini Ultra eine Genauigkeit von über 90 % und übertraf damit andere bestehende Modelle. Google behauptet, dass menschliche Präferenztests auch eine klare Präferenz für Gemini gegenüber Modellen wie PaLM 2 in Bereichen wie kreatives Schreiben zeigten.
Der kleinere Dienst, Gemini Nano, wurde für die Effizienz auf dem Gerät entwickelt und zeichnet sich durch hervorragende Leistungen bei Zusammenfassungen, Leseverständnis und verschiedenen logischen Aufgaben aus. Trotz seiner geringeren Größe zeigt Gemini Nano eine bemerkenswerte Leistung im Vergleich zum größeren Modell Gemini Pro. Das bedeutet, dass Gemini die bevorzugte KI für mobile Assistenten werden könnte, die offline arbeiten können oder müssen.
Gemini sieht in jeder Hinsicht nach einem sehr starken Debüt aus. Und wenn die KI-Fähigkeiten von Google verbessert werden, könnte ihre Vielseitigkeit neue Anwendungen in vielen Bereichen ermöglichen. Vorerst sind jedoch weitere Praxistests erforderlich, um die realistischen Leistungswerte zu ermitteln.
Nutzer können eine fein abgestimmte Version von Gemini Pro heute mit Bard testen. Gemini Ultra wird nächstes Jahr in einer neuen Version von Googles Chatbot namens Bard Advanced veröffentlicht. Google plant, Gemini in über 170 verschiedenen Sprachen auf den Markt zu bringen und die Technologie als Grundlage für das Pixel Lineup und die Search Generative Experience zu nutzen