Home » 新研究称,ChatGPT 的性能正在下滑

新研究称,ChatGPT 的性能正在下滑

by Thomas

去年年底,

ChatGPT 一炮而红,其媲美人类的对话能力让人眼花缭乱,最新版本的发布引发了加密货币的反弹和暂停开发的呼声。但根据一项新的研究,这个领先的人工智能机器人的技能实际上可能正在下降。

斯坦福大学和加州大学伯克利分校的研究人员系统分析了 2022 年 3 月至 6 月不同版本的 ChatGPT。他们制定了严格的基准来评估该模型在数学、编码和视觉推理任务方面的能力。随着时间的推移,ChatGPT 的表现结果并不理想。

测试结果显示,不同版本之间的性能差距惊人。在确定质数的数学挑战中,ChatGPT 在 3 月份正确解决了 500 个问题中的 488 个,准确率高达 97.6%。然而在 6 月份,ChatGPT 只答对了 12 道题,准确率骤降至 2.4%。

Image: 加州大学伯克利分校、斯坦福大学

Image: 加州大学伯克利分校、斯坦福大学


聊天机器人的软件编码能力下降尤为明显。

“研究发现:”对于 GPT-4,可直接执行的代数百分比从 3 月份的 52.0% 降至 6 月份的 10.0%。这些结果是通过使用纯模型版本获得的,也就是说,没有涉及代码解释器插件。

为了评估推理能力,研究人员利用了抽象推理语料库(ARC)数据集中的视觉提示。即使在这里,虽然没有那么陡峭,但也能观察到下降。研究报告写道:”6 月份的 GPT-4 在 3 月份正确的查询上犯了错误”。

是什么原因导致 ChatGPT 在短短几个月后明显降级呢?研究人员假设,这可能是其创建者 OpenAI 进行优化的副作用。

其中一个可能的原因是,为了防止 ChatGPT 回答危险问题而进行的修改。不过,这种安全调整可能会损害 ChatGPT 在其他任务中的实用性。研究人员发现,该模型现在倾向于给出冗长、间接的回答,而不是清晰的答案。

“人工智能专家圣地亚哥-瓦尔德拉马(Santiago Valderrama)在推特上说:”随着时间的推移,GPT-4 越来越糟糕,而不是越来越好。Valderrama 还提出了一种可能性,即一种 “更便宜、更快速 “的混合模型可能已经取代了最初的 ChatGPT 架构。

他假设说:”有传言称,他们正在使用几个更小、更专业的 GPT-4 模型,这些模型的作用类似于一个大型模型,但运行成本更低,”他说,这可能会加快用户的响应速度,但会降低能力。

另一位专家 Jm Fan 博士也在 Twitter Thread 上分享了他的见解。

他写道:”不幸的是,更高的安全性通常是以更低的实用性为代价的,”他说,他正试图通过将这些结果与 OpenAI 调整其模型的方式联系起来来理解这些结果。”我的猜测(没有证据,只是推测)是,OpenAI 从 3 月到 6 月花了大部分精力做脑叶切除术,没有时间完全恢复其他重要的能力。”

Fan 认为,其他因素也可能起了作用,即削减成本、引入可能 “削弱 “模型的警告和免责声明,以及缺乏来自社区的更广泛反馈。

虽然还需要进行更全面的测试,但这些发现与用户对 ChatGPT 曾经雄辩的产出一致性下降所表达的不满是一致的。

如何防止进一步恶化?一些爱好者主张采用开源模型,如 Meta 的 LLaMA(刚刚进行了更新),以便于社区调试。持续的基准测试对于及早发现问题至关重要。

就目前而言,ChatGPT 的粉丝们可能需要降低他们的期望值。许多人第一次见到的那台狂野的创意生成机器似乎变得温和了,也许也不那么聪明了。但与年龄相关的衰退似乎是不可避免的,即使是人工智能名人也不例外。

Related Posts

Leave a Comment