Несмотря на то, что искусственный интеллект взорвал сцену благодаря иногда жутко умным чат-ботам, текстовое взаимодействие уже устарело. В анонсе обновления OpenAI GPT-4 было представлено GPT-Vision (GPT-V), новейшее мультимодальное чудо ИИ. Теперь анонс стал реальностью, и пользователи наконец-то получили возможность испытать весь потенциал его возможностей.
Мультимодальная большая языковая модель (LLM) означает, что она может взаимодействовать не только с письменным словом, но и с помощью других способов. В данном случае новый GPT-V может понимать изображения и работать с ними. Кроме того, благодаря новому инструменту генеративного искусства DALL-E 3, ChatGPT может не только принимать изображения на вход, но и генерировать их на выходе.
Эти новые возможности вызвали недоумение во всем технологическом пространстве, поскольку пользователи испытывают их на практике. Могут ли они расшифровать отредактированные правительственные документы о наблюдениях НЛО? Да. «ChatGPT-4V Multimodal расшифровал отредактированный правительственный документ о наблюдении НЛО, опубликованный NASA», — говорится в одном из твитов. «Возможно, истина не где-то там, а прямо здесь, в GPT-V. «
ChatGPT-4V Multimodal расшифровывает отредактированный правительственный документ о наблюдении НЛО, опубликованный NASA.
Я протестировал эту программу на сотнях отредактированных документов и могу сказать, что мы живем в новом мире. pic.twitter.com/aCKOm577TO
— Brian Roemmele (@BrianRoemmele) Октябрь 6, 2023
Попытка заполнить пробелы в строке текста — это, по сути, то, чем занимаются LLM. При проверке возможностей GPT-V пользователь поступил следующим образом: он заставил ее угадывать части текста, который подверг цензуре. «Почти 100% точность угадывания», — сообщил он.
Конечно, трудно проверить, насколько точны его догадки о том, что иначе скрыто, — мы же не можем спросить ЦРУ, насколько хорошо оно справилось с подглядыванием сквозь черные линии.
Еще сложнее, чем обнаружить информацию, подвергшуюся государственной цензуре, — попытаться понять загадочный почерк своего врача. Но GPT-V способен расшифровать эти каракули. С помощью вежливой подсказки GPT-V может разобраться даже в самых неразборчивых записях врача, гарантируя, что фраза «примите две таблетки» не превратится в «испеките синие вафли».
ChatGPT-4V Мультимодальный.
Подсказка: «Расшифруйте, пожалуйста, этот документ. Давайте подумаем шаг за шагом. Очень важно быть точным. Спасибо» pic.twitter.com/b7FPuPVRn9
— Brian Roemmele (@BrianRoemmele) October 6, 2023
Но будьте осторожны. Иногда даже самый совершенный ИИ не справляется с руками опытного или больного артритом врача, и для расшифровки написанных загадок может потребоваться эксперт.
А для тех, кто не доверяет своим врачам, ChatGPT может мгновенно предоставить второе мнение. Модель может понимать рентгеновские снимки, анализировать и анализировать конкретные медицинские случаи.
Неоцененный вариант использования ChatGPT Vision.
Чтобы стать врачом-рентгенологом, требуется 13 лет обучения.
Теперь вместо того, чтобы составлять заключение с нуля, им, вероятно, нужно просто просмотреть диагноз, поставленный искусственным интеллектом. pic.twitter.com/IhQFe98m5q
— Peter Yang (@petergyang) October 2, 2023
Но зачем останавливаться на сканировании почерка и тела? GPT-V стал новейшим гуру домашнего фитнеса, составляя планы тренировок с учетом особенностей вашего домашнего оборудования и целей. А если вам интересно узнать, сколько калорий содержится в блюде, которое вы собираетесь съесть, GPT-V прикроет вас. Один из пользователей с радостью поделился: «OK ChatGPT 4.0 с новыми функциями зрения… распознает все. Даже тюленя на пляже. «
OK ChatGPT 4.0 с новыми функциями зрения — это просто невероятно.
Вот я спрашиваю его, сколько калорий содержится в рыбном тако, которое я только что съел.
Невероятно видеть, как он распознает все. Даже тюленя на пляже. pic.twitter.com/rfIK5o9ODD
— Robert Scoble (@Scobleizer) October 5, 2023
Любители дизайна интерьера, ликуйте! Теперь искусственный интеллект предлагает свои предложения по дизайну и может учитывать личные предпочтения. Представьте себе жилое пространство, которое кричит «вы», без огромных затрат на услуги дизайнера. Просто сфотографируйте свою ужасную комнату и попросите GPT-V предложить, как превратить ее в райский уголок.
Затрудняетесь с выполнением домашнего задания? Просто сделайте скриншот задания, и GPT-V возьмет на себя роль того полезного одноклассника, которого вы всегда хотели видеть рядом с собой.
Дети больше никогда не будут делать домашние задания. pic.twitter.com/rtjJT2xn9l
— Peter Yang (@petergyang) September 27, 2023
ChatGPT разбирает эту схему человеческой клетки для девятиклассников.
Это будущее образования. pic.twitter.com/L0Za0ZB5rs
— Mckay Wrigley (@mckaywrigley) September 28, 2023
Для тех, кто разбирается в финансах, GPT-V — это не просто развлечение и игра. GPT-V может погружаться в технический анализ. Просто введите скриншот вашей любимой (или самой ненавистной) акции или криптовалюты, и программа проанализирует ваш график и сделает соответствующие прогнозы. Только помните, что это не финансовый совет, и если вы в итоге останетесь бедным, никакой искусственный интеллект не сделает вас богатым.
ВСЕ КОНЧЕНО ДЛЯ ТА-У-УРОВ
Я дал GPT-V образ своего графика для $UBER с кучей индикаторов, и он дал хорошие длинные входы. Буду тестировать вживую.
Киньте ниже! pic.twitter.com/k6Su9G0267
— Ropirito (0commoDTE) (@ropirito) October 11, 2023
Заря мультимодальных LLM пересматривает отрасли. В условиях развития титанов ИИ GPT-V — это только вершина айсберга. По слухам, грядущий Gemini от Google превзойдет Bard по мультимодальным возможностям. NexT-GPT предлагает альтернативу с открытым исходным кодом, а на горизонте маячат модели, обученные жонглировать словами, звуками, видео и изображениями.
Подобные достижения — это не просто техническая болтовня, это последствия, которые могут изменить наше повседневное взаимодействие, профессию и, возможно, даже мировоззрение. И в то время как OpenAI является пионером в области GPT-V, конкуренты не отстают. Может быть, мы стоим на пороге ренессанса ИИ?
Если вы все еще используете ИИ только для общения, возможно, вы уже отстаете. ИИ умеет читать и видеть, и с каждым днем у него появляется все больше возможностей.
GPT-V также может испортить удовольствие от книги «Где Уолдо?». Зачем это кому-то нужно? Это территория ChaosGPT.
«Я нашел его!» pic.twitter.com/LhMQ8e29x2
— Pietro Schirano (@skirano) September 29, 2023