Anthropic 升级克劳德，功能几乎是 GPT-4 Turbo 的两倍

Anthropic刚刚发布了大型语言模型（LLM）Claude 2.1，该模型可提供20万个语境窗口–其功能超过了OpenAI最近发布的GPT-4 Turbo的12万语境。

这一战略性发布带来的语境处理能力几乎是其最接近的竞争对手的两倍，这也是与谷歌扩展合作关系的成果，使这家初创公司有可能使用谷歌最先进的张量处理单元（Tensor Processing Units）。

“Anthropic 在今天早些时候发布的一条推文中说：”我们的新型号 Claude 2.1 提供了业界领先的 20 万个代币上下文窗口，幻觉率降低了 2 倍，系统提示、工具使用和定价也得到了更新。克劳德 2.1 的推出满足了人们对能够精确处理和分析长篇文档的人工智能日益增长的需求。

我们的新型号 Claude 2.1 提供业界领先的 200K 标记上下文窗口、降低 2 倍的幻觉率、系统提示、工具使用和更新的定价。

Claude 2.1 可通过 API 在我们的控制台中使用，并为我们的 https://t.co/uLbS2JNczH 聊天体验提供动力。pic.twitter.com/T1XdQreluH

-Anthropic（@AnthropicAI）2023年11月21日

。

这一新升级意味着克劳德用户现在可以处理像整个代码库或经典文学史诗一样广泛的文档，释放从法律分析到文学评论等各种应用的潜力。

AI 研究员格雷格-卡姆拉特（Greg Kamradt）很快就对克劳德 2.1 模型进行了测试。他发现，OpenAI 的模型在较低的标记数下具有更高的一致性，但根据不同长度的提示，克劳德的结果变化更大。

“他总结说：”从大约 9 万个标记开始，文档底部的召回性能开始变得越来越差。他在调查中发现，GPT -4 Turbo 在大约 65K 字节时也有类似的性能下降水平。”我是 Anthropic 的忠实粉丝–他们正在帮助推动 LLM 性能的发展，并为世界创造强大的工具。

Claude 2.1（200K 代币）–长上下文调用压力测试

我们都喜欢增加上下文长度，但性能如何呢？

Anthropic 提供了 Claude 2.1 的早期访问权限，因此我重复了在 GPT-4 上进行的 “大海捞针 “式分析。

以下是我的发现：…… pic.twitter.com/B36KnjtJmE

– Greg Kamradt (@GregKamradt) 2023年11月21日

。

《克劳德 2.1》提高了准确性，声称幻觉率降低了 50%，这充分体现了 Anthropic 对减少人工智能错误的承诺。与克劳德 2.0 相比，真实性提高了一倍。克劳德 2.1 对这些改进进行了严格的测试，测试中提出了一系列复杂的事实性问题，旨在挑战当前模型的局限性。正如 TCN 之前报道的那样，幻觉是克劳德的弱点之一。准确性的大幅提升将使 LLM 在与 GPT-4 的竞争中处于更有利的地位。

随着 API 工具使用功能的推出，克劳德 2.1 还能更无缝地集成到高级用户的工作流程中，展示其协调各种功能、搜索网络和从私人数据库中提取数据的能力。虽然该功能仍处于测试阶段，但它有望将 Claude 的实用性扩展到从复杂的数字推理到产品推荐等一系列操作中。
此外，Anthropic 的 Claude 2.1 还具有 “系统提示 “功能，旨在提升用户与人工智能之间的互动。这些提示允许用户通过指定角色、目标或风格为克劳德的任务设定舞台，从而增强克劳德在角色扮演场景中保持个性、遵守规则和做出个性化回应的能力。这与 OpenAI 的自定义指令类似，但在上下文方面更为广泛。

例如，用户可以指示克劳德在总结财务报告时采用技术分析师的语气，确保输出符合专业标准。这种通过系统提示进行的定制可能会提高准确性，减少幻觉，并通过使交互更加精确和与上下文相关来提高作品的整体质量。

不过，Claude 2.1 的全部潜力，包括其 20 万个标记的上下文窗口，都是为 Claude Pro 用户保留的，因此免费用户将不得不坚持使用 Claude 2，其标记数量为 10 万个，准确度介于 GPT 3.5 和 GPT-4 之间。

Claude 2.1 发布的连锁反应将影响人工智能行业的动态。在企业和用户评估他们的人工智能选项时，Claude 2.1 的增强功能为那些寻求利用人工智能的精确性和适应性的人提供了新的考虑因素。

Anthropic 升级克劳德，功能几乎是 GPT-4 Turbo 的两倍

育碧的《冠军战术》NFT游戏将登陆Animoca的 “Mocaverse “平台

克鲁斯公司首席执行官在自动驾驶汽车安全危机中下台

Related Posts

Leave a Comment Cancel Reply