Во вторник на высокопоставленном мероприятии по искусственному интеллекту в Лондоне руководители Meta представили первое официальное подтверждение и подробности о скором выпуске Llama 3, долгожданной следующей итерации открытой модели большого языка компании.
«В течение следующего месяца, а то и меньше, мы надеемся, что в очень короткий срок, мы начнем развертывание нашего нового набора базовых моделей нового поколения, Llama 3», — заявил Ник Клегг, президент Meta по глобальным вопросам, на Meta AI Day London, сообщает TechCrunch.
По словам Клегга, Llama 3 состоит из «нескольких различных моделей с разными возможностями и универсальностью», которые начнут распространяться в течение этого года.
Ожидается, что после запуска Llama 3 станет самой продвинутой моделью с открытым исходным кодом, в разработку которой Meta инвестирует значительные средства. По словам Meta, модель была обучена на 140 миллиардах параметров, что вдвое превышает возможности Llama 2. Генеральный директор Meta Марк Цукербург рассказал о некоторых технических деталях в январе.
«Мы создаем массивную вычислительную инфраструктуру для поддержки нашей будущей дорожной карты, включая 350 тысяч H100 к концу этого года — и в целом почти 600 тысяч эквивалентов H100, если включить другие GPU, — сказал тогда Цукерберг. Этот объем вычислительных мощностей значительно превышает тот, который OpenAI использовал для обучения GPT-4, для чего, по оценкам, потребовалось около 25 000 GPU за 90-100 дней.
Цукерберг также сообщил, что Meta AI, его ИИ-ассистент, будет работать на базе Llama 3.
Крис Кокс, директор по продуктам, сказал, что Llama 3 будет интегрирована в Meta.
«Мы планируем, что Llama 3 будет работать на разных продуктах и в разных приложениях нашего семейства», — сказал он.
Стратегия открытого исходного кода
Влияние выпуска Llama 3 выходит далеко за пределы Meta, учитывая философскую приверженность компании к разработке модели с открытым исходным кодом, что явно контрастирует с закрытым, проприетарным подходом, применяемым такими конкурентами, как OpenAI с ChatGPT.
Открывая свои языковые модели, Meta стремится развивать экосистему открытых разработок ИИ и позиционировать семейство Llama как основу для разнообразных инструментов и приложений, создаваемых сторонними разработчиками и исследователями.
«Очень важно понимать, что инновации всегда основываются на предыдущем вкладе других людей, иногда очень похожем», — написал в прошлом месяце в Твиттере Ян ЛеКун, руководитель отдела исследований ИИ компании Meta. «Вот почему так важны открытые исследования: они позволяют всем быстрее продвигаться вперед. «
Со стороны кажется, что инновации спонтанно появляются из вакуума.
Но очень важно понимать, что инновации всегда основываются на предыдущем вкладе других людей, иногда очень похожих.
Вот почему так важны открытые исследования: они делают поле… https://t.co/JMvQD2h5OZ— Янн ЛеКун (@ylecun) Март 20, 2024
Этот принцип открытости уже породил активное сообщество, сплотившееся вокруг Llama. Некоторые из наиболее продвинутых языковых моделей с открытым исходным кодом, такие как Mistral, Falcon и Beluga, созданы путем доработки ранней базовой модели Llama 2. Некоторые из этих моделей сообщества сравнялись с GPT-3.5 или превзошли его по некоторым показателям.
Выпуск Llama-3 в качестве еще одной базовой модели с открытым исходным кодом, вероятно, открывает дорогу новому поколению LLM, которые еще выше поднимут планку качества и эффективности в ИИ.
Эх, я думаю, что открытый исходный код будет соответствовать или превзойдет этот год. pic.twitter.com/y99qKJ2iKF
— Ryan Casey (@ryansweb) January 1, 2024
Борьба с доминированием OpenAI
Основа Llama 3 — открытый исходный код — представляет собой грозный и многоуровневый вызов доминированию OpenAI на рынке и, как следствие, другим проприетарным моделям, таким как Claude и Gemini.
Сообщество разработчиков с открытым исходным кодом вскоре сможет создать Llama 3 и быстро итерировать свои варианты, чтобы потенциально сравняться или превзойти возможности GPT-4 — точно так же, как они сделали это с GPT-3.5. Благодаря более низким затратам на обучение, распределяемым между участниками, открытая экосистема может обогнать OpenAI в разработке собственных моделей, которая требует огромных вычислительных ресурсов и затрат.
Если предложения с открытым исходным кодом будут регулярно достигать паритета с коммерческими предложениями, предприятия, возможно, будут тяготеть к более доступным и экономичным экосистемам, таким как Llama, а не полагаться на OpenAI и платить за него. В настоящее время GPT-4 является самой дорогой моделью на рынке с точки зрения стоимости одного токена.
Кроме того, сообщество с открытым исходным кодом становится сильнее по мере того, как в него вовлекается все больше людей. Meta выигрывает от того, что огромное сообщество создает модель, дорабатывает ее, разрабатывает новые технологии и улучшает ее бесплатно. Это облегчает Meta разработку более совершенных версий своей модели, а также ее монетизацию с помощью альтернативных схем, таких как лицензирование для коммерческого использования в крупных отраслях.
Другими словами, продолжающаяся инерция и сетевые эффекты могут привести к тому, что в будущем проприетарным моделям OpenAI будет сложнее привлекать пользователей и клиентов.
Конечно, в настоящее время OpenAI занимает лидирующие позиции по прибыльности. Anthropic может похвастаться тем, что у нее самая производительная LLM в сфере ИИ. Но Llama 3 станет еще одним стратегическим ударом Meta, направленным на изменение ландшафта генеративного ИИ.
Конечно, многое зависит от реальной производительности Llama 3 и ее внедрения в ближайший год. Но сообщество ИИ с открытым исходным кодом довольно активно — и уже полюбило Llama-2. В ближайшие несколько месяцев все станет очень интересным, особенно с учетом того, что OpenAI’s GPT-5 уже не за горами.