Home » 研究人员称,即使是最差版本的克劳德人工智能也优于 GPT 3.5

研究人员称,即使是最差版本的克劳德人工智能也优于 GPT 3.5

by Tim

人工智能行业正在见证著名的 ChatGPT 和克劳德人工智能模型之间的激烈竞争。负责创建聊天机器人竞技场和著名的维库纳模型的大型模型系统组织(LMSO)刚刚更新了他们的聊天机器人竞技场排行榜,反映了每个人工智能聊天机器人与竞争对手的差距。结果表明,Anthropic 正在给 OpenAI 带来冲击,即使其模型仍可免费使用。

GPT-4 是 ChatGPT Plus 和 Bing AI 背后的强大力量,以最高分蝉联冠军,为大型语言模型(LLM)树立了黄金标准。但是,当我们向排行榜下移时,一个意想不到的弱者故事出现了。Anthropic 的 Claude 模型–Claude 1、Claude 2 和 Claude Instant–都超过了 GPT-3.5,后者是 ChatGPT 免费版的引擎。这意味着 Anthropic 开发的每个大型语言模型都能超越免费版 ChatGPT。

LMSO 细致入微的排名系统让我们对这些模型的性能指标有了更深入的了解。根据排行榜,GPT-4 的 Arena Elo 评分为 1181,在排行榜上遥遥领先,而 Claude 模型紧随其后,评分从 1119 到 1155 不等。而 GPT-3.5 则以 1115 的评分落后。

为了给模型排名,LMSO 让它们在类似提示的比赛中 “战斗”。答案最佳的模型获胜,反之则失败。用户根据自己的喜好决定谁赢,但他们永远不会知道哪些模型在竞争。

Image: LMSO

Image: LMSO


正如 TCN 此前报道的那样,ChatGPT Plus 和 Claude Pro 在令牌处理能力上的差异虽然不是 LMSO 排名的因素,但也是 Claude 机型相对于 GPT 的一大优势。

“Claude Pro 基于 Claude 2 LLM,可处理多达 10 万个令牌信息,而 ChatGPT Plus 采用 GPT-4 LLM,可处理 8192 个令牌,”我们回忆道。这种标记处理能力上的差异凸显了 Claude 模型在管理大量上下文输入方面的优势,而这对细微而丰富的用户体验至关重要。

此外,在处理长提示时,Claude 2 比 GPT 更胜一筹,能更高效地处理更大规模的提示。然而,当提示内容相似时,克劳德 1 和克劳德即时模式的结果与 GPT-3.5 相似或略胜一筹,这显示了这些模式的竞争性。借助 Claude 的上下文功能,一个糟糕的初始答案可以通过更精细、更大和更丰富的提示得到显著改善。

开源模型在这场竞争中也不甘落后。

WizardLM 是在 Meta 的 LlaMA-2 上训练出来的模型,拥有 700 亿个参数,是最好的开源 LLM。紧随其后的是 Vicuna 33B 和 Meta 发布的原始 LlaMA-2。

出于各种原因,开源模型在人工智能领域的发展中发挥着重要作用。它们可以在本地运行,这就为用户提供了对其进行微调的机会,并让社区参与到完善模型的集体努力中来。由于许可证的原因,它们的运行成本也更低,这也是为什么该领域有几十种开源 LLM 而只有少数几种专有模型的原因。

但是,人工智能聊天机器人的游戏并不只关乎数字。它关乎现实世界的影响。

随着聊天机器人成为从客户服务到个人助理等各个领域不可或缺的一部分,其功效、适应性和准确性变得至关重要。由于克劳德模型的排名高于 GPT-3.5,企业和个人用户可能会发现自己正处于十字路口,需要评估哪种模型最符合自己的需求。TCN 准备了两份指南,帮助您决定哪种模式最适合您。

对于新手来说,这可能只是又一次排行榜更新。但对于那些密切关注人工智能行业的人来说,这证明了竞争是多么激烈,潮流是多么瞬息万变。而对于我们这些处于这两个阵营之间的人来说,这也提醒我们,在人工智能世界里,今天最流行的模式可能会被最高效的模式所取代。

Related Posts

Leave a Comment