Компания
OpenAI, стоящая за бумом в индустрии генеративного ИИ, представила DALL-E 3, последнюю версию своего генератора изображений. Благодаря контроллеру ChatGPT он позволяет получать изображения высочайшего качества в ответ на естественно-языковые подсказки и запускается с соблюдением этических норм.
Такие генераторы изображений, как DALL-E, MidJourney и Stable Diffusion, открыли новые творческие горизонты для художников и обычных пользователей после бума ИИ в конце прошлого года. Превращая текстовые подсказки в потрясающие визуальные образы, они предлагают взглянуть на машинную интерпретацию человеческого творчества. Теперь OpenAI стремится еще больше расширить границы с помощью DALL-E 3 — модели, которая может вновь составить прямую конкуренцию другим лидерам отрасли.
Представленный сегодня DALL-E 3 демонстрирует значительные улучшения в точности отображения подробных текстовых описаний. В отличие от предыдущих версий, она точно повторяет сложные подсказки, не требуя огромных доработок и других сложных трюков с подсказками. Новая система также отлично справляется с передачей отношений между объектами и созданием фотореалистичных деталей человека, таких как руки и отражения.
Наша новая модель преобразования текста в изображение, DALL-E 3, способна переводить тонкие запросы в чрезвычайно детализированные и точные изображения.
Скоро в ChatGPT Plus & Enterprise появится новая модель, которая поможет вам создавать удивительные подсказки для воплощения ваших идей в жизнь:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL
— OpenAI (@OpenAI) September 20, 2023
Если сравнить вывод одних и тех же подсказок в DALL-E 2 и DALL-E 3, то последний выдает заметно более четкие и точные изображения. Он может создавать чрезвычайно реалистичные изображения сцен, правильно передавая текстуры, освещение и фон. Кроме того, похоже, что он способен генерировать текст и встраивать его в изображение, что остается проблемой даже для самых мощных на сегодняшний день генераторов изображений с искусственным интеллектом.
DALL-E 3 построен на базе ChatGPT, что позволяет пользователям итеративно дорабатывать подсказки в процессе общения. Первые просочившиеся образцы намекают на молниеносную скорость итераций. Как уже сообщал TCN, ютубер MattVidPro назвал раннюю бета-версию DALL-E 3 «безумной» и утверждал, что с ней не сможет конкурировать даже грядущая версия MidJourney.
Тем не менее, доступность игры по-прежнему ограничена примерно 400 тестерами, а OpenAI заявляет, что ее новая модель будет выпущена «в ближайшее время».

Изображение, созданное с помощью DALL-E 3, и используемый при этом язык подсказок. Источник: OpenAI
На данный момент пользователи могут создавать изображения с помощью DALL-E 2, используя плагины с ChatGPT Plus. Тем, кто не оплачивает подписку, придется столкнуться с такими ограничениями:
Путь к этому рубежу не обошелся без трудностей. На этапе бета-тестирования модель была отмечена за отсутствие цензуры, способной генерировать контент, начиная от обнаженной натуры и заканчивая жестокостью и насилием. Это вызвало недоумение и опасения по поводу возможного злоупотребления подобной технологией. Однако компания OpenAI, похоже, приняла эти опасения близко к сердцу, реализовав в DALL-E 3 функции, предотвращающие создание контента, который может быть расценен как насильственный, взрослый или ненавистный, что обеспечивает более безопасный пользовательский опыт.
Одной из таких мер является создание группы экспертов, «которые помогут нам оценить риски и снизить их в таких областях, как пропаганда и дезинформация».
Опасения по поводу искусственного интеллекта сохраняются, особенно в отношении неприемлемого или неэтичного контента. Хотя в OpenAI в ходе тестирования были сняты фильтры, компания изучает стратегии предотвращения злоупотреблений в публичных версиях. Кроме того, компания собирается упростить идентификацию изображений, созданных с помощью ее инструмента. Это позволит предотвратить распространение deepfake и потенциально определить происхождение изображения в случае, если кто-то обойдет встроенную в модель цензуру.
OpenAI также знает об опасениях по поводу легальности использования человеческих работ для обучения своей модели и придумала ответ в виде более этичного генератора. DALL-E 3 не будет воспроизводить контент, если его попросят подражать живым художникам, а OpenAI позволит авторам отказаться от использования контента. Это стало ответом на реакцию таких художников, как Грег Рутковски, утверждающих, что копирование искусственным интеллектом их стиля без согласия является неэтичным.
Также были поданы крупные судебные иски, в том числе от писателя Джорджа Р.Р. Мартина, обвиняющего OpenAI в неправомерном использовании материалов, защищенных авторским правом.
Компания OpenAI не сразу ответила на запрос TCN.