Obwohl die KI durch manchmal unheimlich clevere Chatbots auf den Plan getreten ist, sind textbasierte Interaktionen bereits altmodisch. Mit der Ankündigung des GPT-4-Updates von OpenAI wurde GPT-Vision (GPT-V) vorgestellt, das neueste multimodale KI-Wunder. Die Ankündigung wird nun Wirklichkeit, da die Nutzer endlich die Möglichkeit haben, das volle Potenzial der Fähigkeiten zu testen.
Ein multimodales großes Sprachmodell (LLM) bedeutet, dass es nicht nur mit dem geschriebenen Wort interagieren kann, sondern auch über andere Modi. In diesem Fall kann das neue GPT-V Bilder verstehen und mit ihnen arbeiten. Außerdem kann ChatGPT dank des neuen generativen Kunstwerkzeugs DALL-E 3 sowohl Bilder als Eingabe annehmen als auch Bilder als Ausgabe erzeugen.
Diese neuen Fähigkeiten haben in der Tech-Branche für Aufsehen gesorgt, da die Benutzer sie auf Herz und Nieren geprüft haben. Können sie geschwärzte Regierungsdokumente über UFO-Sichtungen entschlüsseln? Ja. „ChatGPT-4V Multimodal entschlüsselt ein geschwärztes Regierungsdokument über eine UFO-Sichtung, das von der NASA veröffentlicht wurde“, schwärmt ein Tweet. „Vielleicht ist die Wahrheit nicht da draußen, sondern genau hier in GPT-V. „
ChatGPT-4V Multimodal dekodiert ein von der NASA veröffentlichtes, redigiertes Regierungsdokument über eine UFO-Sichtung.
Ich habe dies an Hunderten von geschwärzten Dokumenten getestet und kann sagen, dass wir uns in einer neuen Welt befinden. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) Oktober 6, 2023
Der Versuch, Lücken in einer Textfolge zu füllen, ist im Grunde das, was LLMs tun. Der Benutzer tat das Nächstbeste, als er versuchte, die Fähigkeiten von GPT-V zu testen, und ließ es Teile eines Textes erraten, den er zensiert hatte. „Er berichtete: „Fast 100 % Genauigkeit bei der Absicht.
Natürlich ist es schwer zu überprüfen, ob die Vermutung über das, was sonst verborgen ist, richtig ist – es ist nicht so, dass wir die CIA fragen können, wie gut sie durch die schwarzen Linien hindurchgesehen hat.
Noch schwieriger als die Aufdeckung von Informationen, die von der Regierung zensiert wurden, ist der Versuch, die kryptische Handschrift Ihres Arztes zu verstehen. Aber GPT-V kann das Gekritzel entziffern. Mit einer höflichen Aufforderung kann GPT-V selbst aus den unleserlichsten Arztnotizen einen Sinn machen und sicherstellen, dass aus „Nimm zwei Tabletten“ nicht „Backe blaue Waffeln“ wird.
ChatGPT-4V Multimodal.
Aufforderung: „Bitte entschlüsseln Sie dieses Dokument. Lassen Sie uns Schritt für Schritt denken. Es ist wichtig, genau zu sein. Vielen Dank“ pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) Oktober 6, 2023
Aber seien Sie vorsichtig. Manchmal scheitert selbst die fortschrittlichste KI an den Händen eines erfahrenen – oder arthritischen – Arztes, und es kann einen Experten erfordern, um diese schriftlichen Rätsel zu entziffern.
Und für diejenigen, die ihren Ärzten nicht trauen, kann ChatGPT sofort eine zweite Meinung einholen. Das Modell kann Röntgenbilder verstehen und Analysen und Einblicke in bestimmte medizinische Fälle liefern.
Unterschätzter Anwendungsfall von ChatGPT Vision.
Um Radiologe zu werden, braucht man 13 Jahre Ausbildung.
Anstatt einen Bericht von Grund auf neu zu verfassen, müssen sie wahrscheinlich nur die KI-Diagnose überprüfen. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) October 2, 2023
Aber warum sollte man es bei Handschrift- und Körperscans belassen? GPT-V ist der neueste Fitnessguru für zu Hause, der Trainingspläne erstellt, die auf Ihre Geräte und Ziele zugeschnitten sind. Und wenn Sie wissen möchten, wie viele Kalorien in der Mahlzeit stecken, die Sie gerade essen wollen, ist GPT-V für Sie da. Ein Benutzer teilte freudig mit: „OK ChatGPT 4.0 mit neuen Sehfunktionen… erkennt alles. Sogar eine Robbe am Strand. „
OK ChatGPT 4.0 mit neuen Vision-Funktionen ist ziemlich unglaublich.
Hier frage ich es, wie viele Kalorien in dem Fisch-Taco sind, den ich gerade gegessen habe.
Es ist unglaublich zu sehen, wie es alles erkennt. Sogar eine Robbe am Strand. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) Oktober 5, 2023
Enthusiasten des Innendesigns, freut euch! Die KI bietet jetzt Designvorschläge an und kann persönliche Vorlieben einbeziehen. Stellen Sie sich einen Wohnraum vor, der nach „Ihnen“ schreit, ohne die hohen Kosten für einen Designer. Machen Sie einfach ein Foto von Ihrem schrecklichen Zimmer und fragen Sie GPT-V nach Vorschlägen, um es in das Paradies zu verwandeln, das Sie sich wünschen.
Hausaufgabenproblem? Machen Sie einfach einen Screenshot der Aufgabe, und GPT-V übernimmt die Rolle des hilfsbereiten Klassenkameraden, den Sie sich schon immer gewünscht haben.
Kinder werden nie wieder Hausaufgaben machen. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) September 27, 2023
ChatGPT erklärt dieses Diagramm einer menschlichen Zelle für einen Neuntklässler.
Das ist die Zukunft der Bildung. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) September 28, 2023
Und für die Finanzfachleute unter uns: GPT-V ist nicht nur für Spaß und Spiel gedacht. GPT-V kann tief in die technische Analyse eintauchen. Geben Sie einfach einen Screenshot Ihrer bevorzugten (oder verhassten) Aktie oder Kryptowährung ein, und das Programm analysiert Ihren Chart und erstellt entsprechende Prognosen. Denken Sie nur daran, dass es sich dabei nicht um eine Finanzberatung handelt – und wenn Sie am Ende arm sind, wird keine KI Sie reich machen.
IT’S SO OVER FOR TA-OOOOORS
Ich habe GPT-V ein Bild meines Charts für $UBER mit einer Reihe von Indikatoren gegeben und es gab gute Long-Einträge. Werde es mal live testen.
Thread unten! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) Oktober 11, 2023
Der Anbruch der multimodalen LLMs definiert die Branchen neu. Mit der Entwicklung von KI-Titanen ist GPT-V nur die Spitze des Eisbergs. Man munkelt, dass Googles kommendes Gemini mit seinen multimodalen Fähigkeiten Bard übertreffen wird. NexT-GPT bietet eine Open-Source-Alternative, und die Zukunft verspricht Modelle, die darauf trainiert sind, mit Worten, Tönen, Videos und Bildern zu jonglieren.
Solche Fortschritte sind nicht einfach nur technisches Geschwafel – sie haben Auswirkungen, die unsere täglichen Interaktionen, unsere Berufe und vielleicht sogar unser Weltbild verändern könnten. Und während OpenAI mit GPT-V Pionierarbeit leistet, sind die Konkurrenten nicht weit dahinter. Könnte es sein, dass wir kurz vor einer Renaissance der KI stehen?
Nun, wenn Sie KI immer noch nur zum Chatten verwenden, könnten Sie bereits ins Hintertreffen geraten. KI kann lesen und sehen, und ihre Fähigkeiten werden täglich erweitert.
GPT-V kann auch den Spaß an einem „Wo ist Waldo?“-Buch verderben. Warum sollte das jemand wollen? Das ist ChaosGPT-Territorium.
„Ich habe ihn gefunden!“ pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) September 29, 2023