Компания
OpenAI выпустила долгожданные обновления, которые позволят популярному чат-боту ChatGPT взаимодействовать с изображениями и голосом. Этот запуск представляет собой важный шаг в реализации концепции OpenAI по созданию искусственного интеллекта общего назначения, способного воспринимать и обрабатывать информацию в различных формах, а не только текст.
«Мы начинаем внедрять в ChatGPT новые возможности работы с голосом и изображениями. Они предлагают новый, более интуитивный тип интерфейса, позволяя вести голосовой разговор или показывать ChatGPT то, о чем вы говорите», — говорится в официальном блоге OpenAI.
По словам представителей OpenAI, новый ChatGPT-Plus будет включать в себя голосовой чат на основе новой модели преобразования текста в речь, способной имитировать человеческие голоса, а также возможность обсуждения изображений благодаря интеграции с моделями генерации изображений компании. Новые возможности, по-видимому, являются частью так называемой GPT Vision (или GPT-V, которую часто путают с теоретической GPT-5) и представляют собой ключевые компоненты усовершенствованной мультимодальной версии GPT-4, о которой OpenAI рассказывал в начале этого года.
Это обновление произошло сразу после того, как OpenAI представил DALL-E 3, свой самый совершенный генератор текста в изображение. DALL-E 3, который первые тестеры назвали «безумным» благодаря его качеству и точности, может создавать высокоточные изображения из текстовых подсказок, понимая при этом сложный контекст и концепции, выраженные на естественном языке. Он будет встроен в ChatGPT Plus, сервис, предоставляемый по подписке, который предлагает ChatGPT на базе GPT-4.
Интеграция DALL-E 3 и разговорного голосового чата свидетельствует о стремлении OpenAI к созданию ИИ-помощников, способных воспринимать мир подобно человеку — с помощью нескольких органов чувств. По словам представителей компании: «Голос и изображение дают вам больше возможностей использовать ChatGPT в своей жизни. Сфотографируйте какую-нибудь достопримечательность во время путешествия и заведите живой разговор о том, что в ней интересного. «
Microsoft разгоняет гонку искусственного интеллекта с помощью интеграции OpenAI
Крупнейший спонсор OpenAI, компания Microsoft, также стремится внедрить передовые возможности генеративного ИИ OpenAI в свои потребительские продукты. На недавнем осеннем мероприятии Microsoft объявила об обновлении Windows 11, Office и поиска Bing с использованием моделей, подобных DALL-E 3 (в программах для работы с изображениями, таких как обновленный Paint), и Copilot, помощника программиста OpenAI.
Это соответствует инвестициям Microsoft в OpenAI в размере более 10 млрд. долларов, поскольку компания стремится возглавить гонку ассистентов искусственного интеллекта. Дебют Copilot в Windows 11 26 сентября обещает сделать помощь искусственного интеллекта доступной для всех платформ и устройств Microsoft. В то же время в Microsoft 365 Chat для автоматизации сложных рабочих задач используется естественный язык OpenAI.
Как ранее сообщал TCN, Microsoft заявила, что «Microsoft 365 Chat прочесывает весь массив данных на работе, включая электронную почту, встречи, чаты, документы и многое другое, а также веб-страницы. «
Осторожные шаги на пути к ответственному ИИ
Однако OpenAI прекрасно понимает потенциальные риски, связанные с использованием более мощных мультимодальных систем ИИ, включающих зрение и генерацию голоса. Ключевыми проблемами являются самозванство, предвзятость и зависимость от визуальной интерпретации.
«Цель OpenAI — создать безопасный и полезный ИИ», — говорится в сообщении компании. «Мы верим в то, что наши инструменты будут доступны постепенно, что позволит нам со временем вносить улучшения и совершенствовать меры по снижению рисков, а также подготовить всех к появлению более мощных систем в будущем»
Кроме того, как уже сообщал TCN, OpenAI собирает «красную команду» для работы над предотвращением вредных последствий от неправильного использования своих продуктов ИИ. Генеральный директор компании Сэм Альтман также занимается лоббированием благоприятного законодательства по всему миру.
По словам представителей OpenAI, пользователи Plus и Enterprise получат доступ к новым функциям в течение ближайших двух недель, после чего планируется расширить доступность для разработчиков. А с учетом того, что компания Google также анонсировала свой собственный революционный мультимодальный LLM Gemini, гонка за доминирование в индустрии ИИ только начинается