Компания Anthropic, созданная бывшими исследователями OpenAI, представила обновленный чат-бот Claude 2, который нацелился на таких конкурентов, как ChatGPT и Google Bard.
Появившись всего через пять месяцев после дебюта Claude, его преемник может похвастаться более длинными ответами, нюансами рассуждений и превосходной производительностью, набрав внушительное количество баллов на экзаменах GRE по чтению и письму.
Claude 2 характеризуется как мощный ИИ, способный переварить до 100 тыс. лексем, что примерно эквивалентно 75 тыс. слов, в одной подсказке. Это значительный скачок по сравнению с предыдущим ограничением в 9000 лексем, что дает уникальное преимущество: способность ИИ давать ответы в более контекстном и усовершенствованном виде.
Новая модель добилась значительных успехов в различных областях, включая юриспруденцию, математику и кодирование, что было оценено с помощью стандартизированного тестирования. По данным Anthropic, Claude 2 набрал 76,5% баллов в разделе «Множественный выбор» экзамена по праву (GPT-3.5 набрал 50,3%) и получил результат выше, чем 90% абитуриентов, сдававших экзамены GRE по чтению и письму. Кроме того, Claude 2 набрал 71,2% в тесте Codex HumanEval по кодированию на языке Python и 88,0% в математических задачах GSM8k для школьников, что свидетельствует о его высоких вычислительных способностях.
Как сообщает TCN, «Клод» Anthropic имеет уникальную «конституцию» — свод правил, вдохновленный Всеобщей декларацией прав человека, что позволяет ему самосовершенствоваться без обратной связи с человеком, выявлять неправильное поведение и адаптировать свое поведение.
Но как он выглядит в сравнении с двумя монархами холма — ChatGPT и новым Bard от Google? Начнем с их технических характеристик.
Цена:
- ChatGPT: Бесплатно для тех, кто использует версию GPT-3.5. Те, кто хочет использовать более мощную версию GPT-4, должны заплатить $20 в месяц за версию ChatGPT Plus.
- Claude: Бесплатно
- Bard: Бесплатно
Доступность:
- ChatGPT: Самый доступный из трех.
- Bard: доступен в меньшем количестве стран, чем ChatGPT.
- Claude: Временно доступен в США и Великобритании.
Приватность:
- ChatGPT: Позволяет пользователям удалять свои сообщения. Не поддерживает просмотр через VPN.
- Bard: Имеет опцию автоматического удаления взаимодействий через 18 месяцев. Не позволяет восстановить предыдущие взаимодействия. Поддерживает VPN, что делает его практически доступным в любой точке мира, минуя политические ограничения.
- Claude: Позволяет пользователям удалять свои разговоры. Поддерживает VPN-браузинг.
Поддерживаемые языки:
- ChatGPT: Поддерживает более 80 языков.
- Bard: поддерживает английский, японский и корейский языки.
- Claude: Поддерживает несколько распространенных языков, таких как английский, испанский, португальский, французский, мандаринский, немецкий и другие. Если программа не распознает язык (или в вводимом тексте много грамматических ошибок), она выдает вводную фразу, а затем отвечает на английском языке.
Контекстная обработка:
- ChatGPT: Бесплатная версия поддерживает 7 096 токенов контекста, ChatGPT Plus (GPT-4) — 8 192 токена. OpenAI предлагает версию, поддерживающую 32 тыс. токенов, но она не используется в ChatGPT.
- Bard: Поддерживает 8 196 токенов контекста.
- Claude: Поддерживает 100 000 токенов контекста — не опечатка.
Функции:
- ChatGPT: Бесплатная версия не имеет дополнительных возможностей. GPT Plus предлагает магазин плагинов, интерпретатор кода и функцию временно приостановленного просмотра веб-страниц на базе Microsoft Bing. Обеспечивается поддержка API.
- Bard: чат-бот находится на стадии эксперимента, но будет иметь магазин плагинов и интеграцию с Google Suite. Предоставляет ограниченный доступ к своему API.
- Claude: Чатбот может быть добавлен в Slack и выполнять различные задачи, такие как резюмирование тем, предоставление предложений, мозговой штурм и т.д. Обеспечивается поддержка API.
Битва подсказок: ChatGPT vs Bard vs Claude
TCN использовал одну и ту же подсказку для сравнения результатов, полученных тремя чат-ботами.
Понимание иностранных языков
Сначала мы спросили о значении распространенной испанской сленговой фразы. Claude оказался более внимательным и точным в объяснении, ChatGPT дал достаточно хорошее объяснение, но Bard отказался отвечать, сославшись на то, что не знает испанского языка. Однако, когда мы переформулировали наш запрос с «что это значит» на «чему это соответствует на английском языке», он дал лучший ответ, чем ChatGPT, хотя и менее развернутый, чем Claude AI.
Актуальная информация
Затем мы спросили у моделей, сколько сегодня стоит биткойн. При этом не только тестируются возможности просмотра веб-страниц, но и оценивается объем информации, предоставляемой каждым из них на основе одного заказа.
ChatGPT не удалось. Он не подключен к Интернету, поэтому не может предоставлять актуальную информацию. Claude также не имеет подключения к Интернету. Однако, в отличие от ChatGPT, он галлюцинировал ответ, содержащий неверную информацию. Если бы пользователь задал вопрос, предполагая, что у Клода есть подключение к Интернету, то он получил бы неверный ответ, выдаваемый за правильный. Google Bard предоставил правильную информацию.
Обработка контекста
Далее мы проверили модели на способность обрабатывать большие куски текста. В качестве примера мы использовали Библию, скопировав весь текст от Бытия 1:1 до Исхода 25:39 (почти 62 тыс. слов). Затем мы задали очень конкретный вопрос из истории, представленной в тексте.
Как и ожидалось, единственной моделью, способной дать ответ, оказался Клод. Ему потребовалось около 2 минут на обработку вопроса, но он дал точный ответ. Мы использовали специальные маркеры, чтобы убедиться, что модель не обманывает и действительно анализирует текст, и она справилась с задачей.
Невербальные способности
Наконец, мы попросили модели решить некоторые математические задачи. ИИ-ЛЛМ для этого не предназначены, и ChatGPT Plus с GPT-4, пожалуй, лучший вариант из трех с его интерпретатором кода. Тем не менее, мы протестировали все три модели и попросили их составить план платежей для человека, пытающегося погасить задолженность по кредитной карте. Мы также попросили модели проранжировать, какие карты следует использовать, а каких следует избегать.
Модель Claude дала наиболее исчерпывающие ответы в отношении плана. Однако он допустил ошибку и порекомендовал нам в первую очередь тратить деньги на карту с самой высокой ставкой APR.
Интерпретатор кода ChatGPT дал ответ, в котором мы переплачиваем по одной из карт, что не очень удобно, если у человека есть долги по другим картам.
GPT 3.5 не давал точных результатов, предлагая заплатить больше денег, чем у нас было на самом деле
Бард был довольно типичным. Он пошел по безопасному пути и не привел никаких цифр, описав, по сути, так называемый метод долговой лавины.
Сильные и слабые стороны
Клод 2:
- Сильные стороны: Claude 2 обладает впечатляющей способностью обрабатывать большие контексты до 100 000 токенов. Он демонстрирует превосходные способности в различных областях, таких как право, математика и кодирование, и может похвастаться высокими результатами в стандартизированных тестах. Он способен самосовершенствоваться и адаптироваться без обратной связи с человеком, поддерживает VPN-браузинг. Чатбот также может быть добавлен в Slack для решения задач и обеспечивает поддержку API.
- Слабые стороны: Временно доступен только в США и Великобритании. Claude 2 не имеет подключения к Интернету и может предоставлять неверную информацию, если его спрашивают о текущих реальных данных. Он может ошибаться при решении сложных задач и говорить об этом очень убедительно.
ChatGPT:
- Сильные стороны: ChatGPT — самая широкодоступная из трех моделей, поддерживающая более 80 языков. Кроме того, в версии ChatGPT Plus имеется поддержка API и магазин плагинов.
- Слабые стороны: Ограниченные возможности работы с контекстом по сравнению с Claude 2. Бесплатная версия не предлагает дополнительных возможностей и является гораздо более ограниченной и менее качественной, чем платная. Функция просмотра веб-страниц временно приостанавливается и не может предоставлять данные в реальном времени. В некоторых сложных задачах она может выдавать некорректные результаты.
Google’s Bard:
- Сильные стороны: Bard поддерживает VPN-браузинг. Благодаря подключению к Интернету он может предоставлять данные в режиме реального времени. Bard также планирует интегрироваться с Google Suite и предложить магазин плагинов.
- Слабые стороны: Bard поддерживает меньше языков, чем ChatGPT. Доступ к API ограничен, а возможности работы с контекстом ниже, чем у Claude 2. Ответы Bard могут быть общими и бесполезными при решении некоторых сложных задач, что является разумным компромиссом, если пользователь хочет снизить риск возникновения галлюцинаций.
Выводы
Сейчас, когда в области ИИ LLM и чатботов появилось больше возможностей, не обязательно становиться фанатом ChatGPT или переходить в лагерь только Google.
Если вы не решаетесь заплатить 20 долл. за ChatGPT Plus, подумайте о том, чтобы использовать Claude. По функциональности он сопоставим с GPT-4, а по производительности, скорее всего, превзойдет GPT-3.5 — версию, доступную в бесплатном ChatGPT, — и для большинства пользователей окажется лучшим выбором, чем Google Bard. Дополнительной особенностью Claude является возможность анализа PDF-файлов и файлов с большим количеством расширений. Файлы можно просто перетащить в программу, подобно платным плагинам, доступным в подписке GPT Plus. Таким образом, прежде чем платить за ChatGPT 4, стоит попробовать Claude. Потенциально это может сэкономить деньги.
Однако у каждого варианта есть свои сильные и слабые стороны, которые делают каждого бота более привлекательным для конкретных нужд. Claude обрабатывает большие объемы данных, но может оказаться не лучшим выбором для задач, требующих данных в реальном времени. ChatGPT более креативен, что идеально подходит для задач, требующих поддержки специфических языков (к тому же его магазин плагинов действительно хорош, если вы готовы заплатить за него). С другой стороны, Bard более фактологичен, точен и использует возможности подключения к Интернету, но для творческих задач может оказаться не лучшим вариантом.
В конце концов, зачем выбирать что-то одно? Вам не нужно решать, какой из них лучше — вы можете использовать их все.