Компания Anthropic только что выпустила Claude 2.1, большую языковую модель (LLM), которая предлагает контекстное окно на 200 000 слов, что превосходит недавно объявленные 120 000 контекстов GPT-4 Turbo от OpenAI.
Этот стратегический релиз обеспечивает обработку контекста, почти вдвое превосходящую возможности ближайшего конкурента, и является плодом расширенного сотрудничества с Google, которое позволило стартапу использовать самые передовые блоки обработки тензоров.
«Наша новая модель Claude 2.1 предлагает лучшее в отрасли контекстное окно на 200 тысяч токенов, двукратное снижение частоты галлюцинаций, системные подсказки, использование инструментов и обновленную цену», — говорится в твите Anthropic, опубликованном сегодня. Появление Claude 2.1 отвечает растущему спросу на ИИ, способный обрабатывать и анализировать длинные документы с высокой точностью.
Новая модель Claude 2.1 предлагает лучшее в отрасли контекстное окно на 200 тыс. токенов, 2-кратное снижение частоты галлюцинаций, системные подсказки, использование инструментов и обновленную цену.
Claude 2.1 доступна через API в нашей консоли и служит основой для чата https://t.co/uLbS2JNczH pic.twitter.com/T1XdQreluH
— Anthropic (@AnthropicAI) November 21, 2023
Это новое обновление означает, что теперь пользователи Claude могут работать с такими обширными документами, как целые кодовые базы или классические литературные эпосы, раскрывая потенциал различных приложений — от юридического анализа до литературной критики.
Исследователь в областиAI Грег Камрадт быстро испытал модель Claude 2.1 на практике. Он обнаружил большую согласованность модели OpenAI при меньшем количестве лексем, но у Клода более разнообразные результаты в зависимости от подсказок разной длины.
«Начиная примерно с 90 тысяч лексем, показатели запоминания в нижней части документа стали ухудшаться», — заключил он. Его исследование показало аналогичный уровень деградации для GPT -4 Turbo примерно при 65 тыс. жетонов. «Я большой поклонник Anthropic — они помогают расширить границы производительности LLM и создают мощные инструменты для всего мира», — написал он.
Клод 2.1 (200 тыс. токенов) — тестирование длинного контекста для запоминания
Мы все любим увеличивать длину контекста, но какова производительность?
Anthropic предоставила ранний доступ к Claude 2.1, и я повторил анализ «иголка в стоге сена», который я проводил на GPT-4.
Вот что я нашел:… pic.twitter.com/B36KnjtJmE
— Greg Kamradt (@GregKamradt) November 21, 2023
О стремлении Anthropic уменьшить количество ошибок ИИ свидетельствует повышенная точность Claude 2.1, в которой на 50% снижено количество галлюцинаций. По сравнению с Claude 2.0 правдивость увеличилась в два раза. Эти улучшения были тщательно протестированы с помощью набора сложных фактических вопросов, разработанных для проверки текущих ограничений модели. Как уже сообщал TCN, галлюцинации были одним из слабых мест Клода. Такое резкое увеличение точности поставило бы LLM в более тесную конкуренцию с GPT-4.
С появлением функции использования API-инструментов Claude 2.1 также более легко интегрируется в рабочие процессы опытных пользователей, демонстрируя свою способность оркестровать различные функции, искать информацию в Интернете и извлекать ее из частных баз данных. Пока эта функция находится в стадии бета-тестирования, но она обещает расширить возможности Claude по целому ряду операций, от сложных числовых вычислений до составления рекомендаций по продуктам.
Кроме того, в Claude 2.1 от Anthropic появились «системные подсказки», призванные повысить уровень взаимодействия между пользователем и ИИ». Эти подсказки позволяют пользователям определять задачи Клода, указывая роли, цели или стили, что повышает способность Клода сохранять характер в ролевых сценариях, придерживаться правил и персонализировать ответы. Это можно сравнить с пользовательскими инструкциями OpenAI, но с более широким контекстом.
Например, пользователь может приказать Клоду взять тон технического аналитика при обобщении финансового отчета, чтобы результат соответствовал профессиональным стандартам. Такая настройка с помощью системных подсказок может повысить точность, уменьшить количество галлюцинаций и улучшить общее качество работы, сделав взаимодействие более точным и контекстуально релевантным.
Однако весь потенциал Claude 2.1 с его контекстным окном на 200 тыс. лексем доступен только пользователям Claude Pro, поэтому бесплатным пользователям придется довольствоваться Claude 2 со 100 тыс. лексем и точностью, находящейся где-то между GPT 3.5 и GPT-4.
Выход Claude 2.1 окажет влияние на динамику развития индустрии ИИ. Пока компании и пользователи оценивают свои возможности в области ИИ, расширенные возможности Claude 2.1 представляют собой новые соображения для тех, кто стремится использовать ИИ для повышения точности и адаптивности.