新研究称，ChatGPT 的性能正在下滑

去年年底，

ChatGPT 一炮而红，其媲美人类的对话能力让人眼花缭乱，最新版本的发布引发了加密货币的反弹和暂停开发的呼声。但根据一项新的研究，这个领先的人工智能机器人的技能实际上可能正在下降。

斯坦福大学和加州大学伯克利分校的研究人员系统分析了 2022 年 3 月至 6 月不同版本的 ChatGPT。他们制定了严格的基准来评估该模型在数学、编码和视觉推理任务方面的能力。随着时间的推移，ChatGPT 的表现结果并不理想。

测试结果显示，不同版本之间的性能差距惊人。在确定质数的数学挑战中，ChatGPT 在 3 月份正确解决了 500 个问题中的 488 个，准确率高达 97.6%。然而在 6 月份，ChatGPT 只答对了 12 道题，准确率骤降至 2.4%。

Image：加州大学伯克利分校、斯坦福大学

聊天机器人的软件编码能力下降尤为明显。

“研究发现：”对于 GPT-4，可直接执行的代数百分比从 3 月份的 52.0% 降至 6 月份的 10.0%。这些结果是通过使用纯模型版本获得的，也就是说，没有涉及代码解释器插件。

为了评估推理能力，研究人员利用了抽象推理语料库（ARC）数据集中的视觉提示。即使在这里，虽然没有那么陡峭，但也能观察到下降。研究报告写道：”6 月份的 GPT-4 在 3 月份正确的查询上犯了错误”。

是什么原因导致 ChatGPT 在短短几个月后明显降级呢？研究人员假设，这可能是其创建者 OpenAI 进行优化的副作用。

其中一个可能的原因是，为了防止 ChatGPT 回答危险问题而进行的修改。不过，这种安全调整可能会损害 ChatGPT 在其他任务中的实用性。研究人员发现，该模型现在倾向于给出冗长、间接的回答，而不是清晰的答案。

“人工智能专家圣地亚哥-瓦尔德拉马（Santiago Valderrama）在推特上说：”随着时间的推移，GPT-4 越来越糟糕，而不是越来越好。Valderrama 还提出了一种可能性，即一种 “更便宜、更快速 “的混合模型可能已经取代了最初的 ChatGPT 架构。

他假设说：”有传言称，他们正在使用几个更小、更专业的 GPT-4 模型，这些模型的作用类似于一个大型模型，但运行成本更低，”他说，这可能会加快用户的响应速度，但会降低能力。

有成百上千（也许已经成千上万？）的人回复说他们注意到了质量的下降。

浏览这些评论，你会看到许多 GPT-4 无法像以前一样工作的情况。

– 圣地亚哥（@svpino）2023 年 7 月 19 日

另一位专家 Jm Fan 博士也在 Twitter Thread 上分享了他的见解。

他写道：”不幸的是，更高的安全性通常是以更低的实用性为代价的，”他说，他正试图通过将这些结果与 OpenAI 调整其模型的方式联系起来来理解这些结果。”我的猜测（没有证据，只是推测）是，OpenAI 从 3 月到 6 月花了大部分精力做脑叶切除术，没有时间完全恢复其他重要的能力。”

Fan 认为，其他因素也可能起了作用，即削减成本、引入可能 “削弱 “模型的警告和免责声明，以及缺乏来自社区的更广泛反馈。

虽然还需要进行更全面的测试，但这些发现与用户对 ChatGPT 曾经雄辩的产出一致性下降所表达的不满是一致的。

如何防止进一步恶化？一些爱好者主张采用开源模型，如 Meta 的 LLaMA（刚刚进行了更新），以便于社区调试。持续的基准测试对于及早发现问题至关重要。

就目前而言，ChatGPT 的粉丝们可能需要降低他们的期望值。许多人第一次见到的那台狂野的创意生成机器似乎变得温和了，也许也不那么聪明了。但与年龄相关的衰退似乎是不可避免的，即使是人工智能名人也不例外。