Въпреки че изкуственият интелект избухна на сцената чрез понякога страшно умни чатботове, текстовите взаимодействия вече са старомодни. С обявяването на актуализацията GPT-4 на OpenAI беше представена GPT-Vision (GPT-V), най-новото мултимодално чудо на ИИ. Сега анонсът се превръща в реалност, тъй като потребителите най-накрая имат възможност да изпробват пълния потенциал на способностите му.
Мултимодалният голям езиков модел (LLM) означава, че той може да взаимодейства не само с писменото слово, но и чрез други начини. В този случай новият GPT-V може да разбира изображения и да работи с тях. Също така, благодарение на новия инструмент за генеративно изкуство DALL-E 3, ChatGPT може да приема изображения като вход, но и да генерира изображения като изход.
Тези нови възможности повдигнаха вежди в технологичното пространство, тъй като потребителите ги изпробваха. Могат ли те да декодират редактирани правителствени документи за наблюдения на НЛО? Да. „ChatGPT-4V Multimodal декодира редактиран правителствен документ за наблюдение на НЛО, публикуван от НАСА“, се казва в един туит. „Може би истината не е някъде там; тя е точно тук, в GPT-V.“
ChatGPT-4V Мултимодално декодиране на Редактиран правителствен документ за наблюдение на НЛО, публикуван от НАСА.
Тествал съм това върху стотици редактирани документи и мога да кажа, че се намираме в нов свят. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) October 6, 2023
Опитът да се запълнят пропуски в низ от текстове по принцип е това, което правят магистрите по право. Потребителят е направил следващото най-добро нещо, когато се е опитал да тества възможностите на GPT-V, и го е накарал да отгатне части от текст, които той е цензурирал. „Почти 100% точност на намерението.“ – съобщи той.
Разбира се, трудно е да се провери дали предположението му за това, което иначе е затъмнено, е точно – не е като да можем да попитаме ЦРУ колко добре се е справило с надникването през черните линии.
Далеч по-трудно от това да откриете информация, която е цензурирана от правителството, е да се опитате да разберете загадъчния почерк на вашия лекар. Но GPT-V може да разгадае написаното. С помощта на вежливо подканване GPT-V може да разбере дори най-неразбираемите лекарски бележки, като гарантира, че „вземете две таблетки“ няма да се превърне в „изпечете сини вафли“
ChatGPT-4V Мултимодален.
Подсказка: „Моля, декодирайте този документ. Нека да помислим стъпка по стъпка. Изключително важно е да бъдете точни. Благодаря ви“ pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) October 6, 2023
Но бъдете внимателни. Понякога дори най-усъвършенстваният изкуствен интелект не успява да се справи с ръцете на опитен – или артритен – лекар и може да се наложи експерт да дешифрира тези писмени загадки.
А за тези, които нямат доверие на своите лекари, ChatGPT може да осигури незабавно второ мнение. Моделът може да разбира рентгенови снимки и да предоставя анализ и прозрения за конкретни медицински случаи.
Недооценен случай на използване на ChatGPT Vision.
За да станете рентгенолог, са необходими 13 години обучение.
Сега вместо да изготвят доклад от нулата, те вероятно трябва само да прегледат диагнозата на ИИ. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) Октомври 2, 2023
Но защо да се спираме на почерка и сканирането на тялото? GPT-V се превърна в най-новия гуру на домашния фитнес, който изготвя тренировъчни планове, съобразени с вашето домашно оборудване и цели. А ако ви е интересно колко калории има в ястието, което се готвите да изядете, GPT-V ви подкрепя. Един от потребителите радостно споделя: „OK ChatGPT 4.0 с нови функции за зрение… разпознава всичко. Дори тюлен на плажа. „
OK ChatGPT 4.0 с новите функции за зрение е доста невероятен.
Тук го питам колко калории има в рибното тако, което току-що изядох.
Невероятно е да се види как разпознава всичко. Дори тюлен на плажа. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 5 октомври 2023 г.
Ентусиасти на вътрешния дизайн, радвайте се! ИИ вече предлага предложения за дизайн и може да включва лични предпочитания. Представете си жилищно пространство, което крещи „вие“, без да се налага да плащате високи хонорари на дизайнери. Просто направете снимка на ужасната си стая и поискайте от GPT-V предложения, за да я превърнете в рая, който искате да бъде.
Домашна работа? Просто направете снимка на екрана на задачата и GPT-V ще влезе в ролята на услужливия съученик, който винаги сте искали да седи до вас.
Децата никога повече няма да пишат домашни. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) September 27, 2023
ChatGPT разгръща тази схема на човешка клетка за деветокласник.
Това е бъдещето на образованието. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) September 28, 2023
А за финансовите маниаци сред нас, GPT-V не е само забавление и игри. GPT-V може да навлезе дълбоко в техническия анализ. Просто въведете екранна снимка на любимата си (или най-ненавижданата) акция или криптовалута, а тя ще анализира графиката и ще направи съответните прогнози. Само не забравяйте, че това не е финансов съвет – и ако в крайна сметка се окажете бедни, никой изкуствен интелект няма да ви направи богати.
ТОВА Е КРАЯТ НА ТА-Я-Я-Я
Дадох на GPT-V изображение на моята графика за $UBER с куп индикатори и тя даде добри дълги влизания. Ще го тествам на живо.
Темата по-долу! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) October 11, 2023
Залезът на мултимодалните магистърски програми за висше образование предефинира индустриите. С развитието на титаните на изкуствения интелект GPT-V е само върхът на айсберга. Говори се, че предстоящият Gemini на Google ще надмине Bard с мултимодалните си умения. NexT-GPT предлага алтернатива с отворен код, а хоризонтът обещава модели, обучени да жонглират с думи, звуци, видеоклипове и изображения.
Подобни постижения не са просто техническа глупост – те имат значение, което може да промени ежедневното ни общуване, професиите ни, а може би дори и светогледа ни. И докато OpenAI е пионер с GPT-V, конкурентите не са далеч назад. Възможно ли е да сме на прага на ренесанс на изкуствения интелект?
Е, ако все още използвате ИИ само за чат, може би вече изоставате. ИИ може да чете и да вижда и всеки ден придобива все повече възможности.
GPT-V може също така да развали забавлението от книгата „Къде е Уолдо?“. Защо някой би искал това? Това е територията на ChaosGPT.
„Намерих го!“ pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29 септември 2023 г.