Ačkoli umělá inteligence vtrhla na scénu prostřednictvím někdy až děsivě chytrých chatbotů, textové interakce jsou již zastaralé. Oznámení aktualizace OpenAI GPT-4 představilo GPT-Vision (GPT-V), nejnovější multimodální zázrak AI. Oznámení se nyní stává skutečností, protože uživatelé mají konečně možnost vyzkoušet plný potenciál jeho schopností.
Multimodální velký jazykový model (LLM) znamená, že dokáže komunikovat nejen s psaným slovem, ale také prostřednictvím dalších způsobů. V tomto případě umí nový GPT-V rozumět obrázkům a pracovat s nimi. Také díky novému generativnímu uměleckému nástroji DALL-E 3 může ChatGPT přijímat obrázky jako vstup, ale také je generovat jako výstup.
Tyto nové schopnosti vyvolaly pozdvižení napříč technologickým prostorem, protože je uživatelé vyzkoušeli v praxi. Dokážou dekódovat redigované vládní dokumenty o pozorování UFO? Ano. „ChatGPT-4V Multimodal dekóduje redigovaný vládní dokument o pozorování UFO, který zveřejnila NASA,“ píše se v jednom tweetu. „Možná, že pravda není někde venku, je přímo tady v GPT-V.“
ChatGPT-4V Multimodal dekóduje Redigovaný vládní dokument o pozorování UFO, který zveřejnila NASA.
Otestoval jsem to na stovkách redigovaných dokumentů a mohu říct, že jsme v novém světě. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) October 6, 2023
Snažit se vyplnit mezery v řetězci textu je v podstatě to, co dělají LLM. Uživatel udělal další nejlepší věc, když se snažil otestovat schopnosti GPT-V, a přiměl jej, aby uhodl části textu, které cenzuroval. „Téměř stoprocentní přesnost záměru.“ hlásil.
Samozřejmě je těžké ověřit, zda je jeho odhad toho, co je jinak zastřené, přesný – nemůžeme se přece zeptat CIA, jak dobře si vedl při nahlížení přes černé čáry.
Ještě těžší než odhalit informace, které byly vládou cenzurovány, je snažit se porozumět šifrovanému písmu svého lékaře. GPT-V však dokáže čmáranice rozluštit. Po zdvořilé výzvě dokáže GPT-V dát smysl i těm nejnesrozumitelnějším poznámkám lékaře a zajistit, aby se z „vezměte si dvě tablety“ nestalo „upečte si modré oplatky“.
ChatGPT-4V Multimodal.
Prompt: „Prosím, dekódujte tento dokument. Přemýšlejme krok za krokem. Je nezbytné být přesný. Děkuji“ pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 6. října 2023
Ale buďte opatrní. Někdy i ta nejpokročilejší umělá inteligence selže proti rukám zkušeného – nebo artritického – lékaře a k rozluštění těchto písemných hádanek může být zapotřebí odborníka.
A těm, kteří svým lékařům nedůvěřují, může ChatGPT poskytnout okamžitý druhý názor. Model dokáže porozumět rentgenovým snímkům a poskytnout analýzu a náhled na konkrétní lékařské případy.
Nedoceněný případ použití ChatGPT Vision.
K tomu, aby se člověk mohl stát radiologem, potřebuje 13 let výcviku.
Nyní jim místo vypracování zprávy od začátku pravděpodobně stačí zkontrolovat diagnózu AI. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) October 2, 2023
Ale proč se zastavit u skenování rukopisu a těla? GPT-V se stal nejnovějším guru domácího fitness, který kurátorsky sestavuje tréninkové plány na míru vašemu domácímu vybavení a cílům. A pokud vás zajímá, kolik kalorií obsahuje jídlo, které se chystáte sníst, GPT-V vám kryje záda. Jeden uživatel se radostně podělil: „OK ChatGPT 4.0 s novými funkcemi vidění… rozpozná všechno. Dokonce i tuleně na pláži.“
OK ChatGPT 4.0 s novými funkcemi vidění je docela neuvěřitelný.
Tady se ho ptám, kolik kalorií obsahuje rybí taco, které jsem právě snědl.
Je neuvěřitelné, jak všechno rozpozná. Dokonce i tuleně na pláži. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) October 5, 2023
Milovníci interiérového designu, radujte se! Umělá inteligence nyní nabízí návrhy designu a dokáže zohlednit osobní preference. Představte si obytný prostor, který křičí „vy“, bez vysokých honorářů za návrháře. Stačí vyfotit svůj příšerný pokoj a požádat GPT-V o návrhy, které z něj udělají ráj podle vašich představ.
Trápí vás domácí úkoly? Stačí pořídit snímek obrazovky se zadáním a GPT-V převezme roli ochotného spolužáka, kterého jste si vždycky přáli mít vedle sebe.
Děti už nikdy nebudou dělat domácí úkoly. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) 27. září 2023
ChatGPT rozebírá toto schéma lidské buňky pro žáka 9. třídy.
Tohle je budoucnost vzdělávání. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 28. září 2023
A pro finanční maniaky mezi námi: GPT-V není jen o zábavě a hrách. GPT-V se dokáže ponořit do hloubky technické analýzy. Stačí zadat snímek obrazovky vaší oblíbené (nebo nejnenáviděnější) akcie nebo kryptoměny a nástroj analyzuje graf a podle něj vytvoří projekce. Jen nezapomeňte, že to není finanční poradenství – a pokud skončíte chudí, žádná umělá inteligence z vás boháče neudělá.
JE TAK KONEC PRO TA-OOOOORS
Dal jsem GPT-V obrázek svého grafu pro $UBER s hromadou indikátorů a dávalo to dobré dlouhé vstupy. Vyzkouším to naživo.
Vlákno níže! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) 11. října 2023
Úsvit multimodálních LLM nově definuje průmyslová odvětví. S vývojem titánů v oblasti umělé inteligence je GPT-V jen špičkou ledovce. Nadcházející Gemini od Googlu prý svými multimodálními schopnostmi předčí Barda. NexT-GPT nabízí alternativu s otevřeným zdrojovým kódem a na obzoru slibuje modely vycvičené k žonglování se slovy, zvuky, videi a obrázky.
Takové pokroky nejsou jen technobláboly – mají důsledky, které by mohly změnit naše každodenní interakce, profese a možná i náš pohled na svět. A zatímco OpenAI je s GPT-V průkopníkem, konkurence není daleko. Mohli bychom být na pokraji renesance umělé inteligence?
No, pokud stále používáte AI jen pro chat, možná už jste pozadu. AI umí číst a vidět a každým dnem získává další schopnosti.
GPT-V může také zničit zábavu s knihou „Kde je Waldo?“. Proč by to někdo chtěl? Tohle je území ChaosGPT.
„Našel jsem ho!“ pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29. září 2023