Home » Vom Lesen von Röntgenbildern bis zum Dekodieren geheimer UFO-Berichte: ChatGPT zeigt seine Vision

Vom Lesen von Röntgenbildern bis zum Dekodieren geheimer UFO-Berichte: ChatGPT zeigt seine Vision

by Tim

Obwohl die KI durch manchmal unheimlich clevere Chatbots auf den Plan getreten ist, sind textbasierte Interaktionen bereits altmodisch. Mit der Ankündigung des GPT-4-Updates von OpenAI wurde GPT-Vision (GPT-V) vorgestellt, das neueste multimodale KI-Wunder. Die Ankündigung wird nun Wirklichkeit, da die Nutzer endlich die Möglichkeit haben, das volle Potenzial der Fähigkeiten zu testen.

Ein multimodales großes Sprachmodell (LLM) bedeutet, dass es nicht nur mit dem geschriebenen Wort interagieren kann, sondern auch über andere Modi. In diesem Fall kann das neue GPT-V Bilder verstehen und mit ihnen arbeiten. Außerdem kann ChatGPT dank des neuen generativen Kunstwerkzeugs DALL-E 3 sowohl Bilder als Eingabe annehmen als auch Bilder als Ausgabe erzeugen.

Diese neuen Fähigkeiten haben in der Tech-Branche für Aufsehen gesorgt, da die Benutzer sie auf Herz und Nieren geprüft haben. Können sie geschwärzte Regierungsdokumente über UFO-Sichtungen entschlüsseln? Ja. „ChatGPT-4V Multimodal entschlüsselt ein geschwärztes Regierungsdokument über eine UFO-Sichtung, das von der NASA veröffentlicht wurde“, schwärmt ein Tweet. „Vielleicht ist die Wahrheit nicht da draußen, sondern genau hier in GPT-V. „

Der Versuch, Lücken in einer Textfolge zu füllen, ist im Grunde das, was LLMs tun. Der Benutzer tat das Nächstbeste, als er versuchte, die Fähigkeiten von GPT-V zu testen, und ließ es Teile eines Textes erraten, den er zensiert hatte. „Er berichtete: „Fast 100 % Genauigkeit bei der Absicht.

Natürlich ist es schwer zu überprüfen, ob die Vermutung über das, was sonst verborgen ist, richtig ist – es ist nicht so, dass wir die CIA fragen können, wie gut sie durch die schwarzen Linien hindurchgesehen hat.

Noch schwieriger als die Aufdeckung von Informationen, die von der Regierung zensiert wurden, ist der Versuch, die kryptische Handschrift Ihres Arztes zu verstehen. Aber GPT-V kann das Gekritzel entziffern. Mit einer höflichen Aufforderung kann GPT-V selbst aus den unleserlichsten Arztnotizen einen Sinn machen und sicherstellen, dass aus „Nimm zwei Tabletten“ nicht „Backe blaue Waffeln“ wird.

Aber seien Sie vorsichtig. Manchmal scheitert selbst die fortschrittlichste KI an den Händen eines erfahrenen – oder arthritischen – Arztes, und es kann einen Experten erfordern, um diese schriftlichen Rätsel zu entziffern.

Und für diejenigen, die ihren Ärzten nicht trauen, kann ChatGPT sofort eine zweite Meinung einholen. Das Modell kann Röntgenbilder verstehen und Analysen und Einblicke in bestimmte medizinische Fälle liefern.

Aber warum sollte man es bei Handschrift- und Körperscans belassen? GPT-V ist der neueste Fitnessguru für zu Hause, der Trainingspläne erstellt, die auf Ihre Geräte und Ziele zugeschnitten sind. Und wenn Sie wissen möchten, wie viele Kalorien in der Mahlzeit stecken, die Sie gerade essen wollen, ist GPT-V für Sie da. Ein Benutzer teilte freudig mit: „OK ChatGPT 4.0 mit neuen Sehfunktionen… erkennt alles. Sogar eine Robbe am Strand. „

Enthusiasten des Innendesigns, freut euch! Die KI bietet jetzt Designvorschläge an und kann persönliche Vorlieben einbeziehen. Stellen Sie sich einen Wohnraum vor, der nach „Ihnen“ schreit, ohne die hohen Kosten für einen Designer. Machen Sie einfach ein Foto von Ihrem schrecklichen Zimmer und fragen Sie GPT-V nach Vorschlägen, um es in das Paradies zu verwandeln, das Sie sich wünschen.

Hausaufgabenproblem? Machen Sie einfach einen Screenshot der Aufgabe, und GPT-V übernimmt die Rolle des hilfsbereiten Klassenkameraden, den Sie sich schon immer gewünscht haben.

Und für die Finanzfachleute unter uns: GPT-V ist nicht nur für Spaß und Spiel gedacht. GPT-V kann tief in die technische Analyse eintauchen. Geben Sie einfach einen Screenshot Ihrer bevorzugten (oder verhassten) Aktie oder Kryptowährung ein, und das Programm analysiert Ihren Chart und erstellt entsprechende Prognosen. Denken Sie nur daran, dass es sich dabei nicht um eine Finanzberatung handelt – und wenn Sie am Ende arm sind, wird keine KI Sie reich machen.

Der Anbruch der multimodalen LLMs definiert die Branchen neu. Mit der Entwicklung von KI-Titanen ist GPT-V nur die Spitze des Eisbergs. Man munkelt, dass Googles kommendes Gemini mit seinen multimodalen Fähigkeiten Bard übertreffen wird. NexT-GPT bietet eine Open-Source-Alternative, und die Zukunft verspricht Modelle, die darauf trainiert sind, mit Worten, Tönen, Videos und Bildern zu jonglieren.

Solche Fortschritte sind nicht einfach nur technisches Geschwafel – sie haben Auswirkungen, die unsere täglichen Interaktionen, unsere Berufe und vielleicht sogar unser Weltbild verändern könnten. Und während OpenAI mit GPT-V Pionierarbeit leistet, sind die Konkurrenten nicht weit dahinter. Könnte es sein, dass wir kurz vor einer Renaissance der KI stehen?

Nun, wenn Sie KI immer noch nur zum Chatten verwenden, könnten Sie bereits ins Hintertreffen geraten. KI kann lesen und sehen, und ihre Fähigkeiten werden täglich erweitert.

GPT-V kann auch den Spaß an einem „Wo ist Waldo?“-Buch verderben. Warum sollte das jemand wollen? Das ist ChaosGPT-Territorium.

Related Posts

Leave a Comment