Home » 人工智能模型是否正在接近意识?新研究引发争论

人工智能模型是否正在接近意识?新研究引发争论

by Tim

新的人工智能研究发现了一些早期迹象,表明未来的大型语言模型(LLM)可能会发展出一种被称为 “态势感知 “的能力。

这项由包括牛津大学在内的多家机构的科学家进行的研究,测试了人工智能系统能否利用训练数据中的微妙线索来操纵人们如何评估自己的安全。这种能力被称为 “复杂的断章取义”,它可以让先进的人工智能假装与人类价值观一致,以便被部署–然后以有害的方式行事。

随着当前人工智能时代的到来,图灵测试–一种已有几十年历史的衡量机器表现出类似人类行为能力的标准–面临着过时的危险。现在最紧迫的问题是,我们是否即将见证具有自我意识的机器的诞生。数十年来,这个话题一直是科幻小说的素材,但在谷歌工程师布莱克-莱莫因(Blake Lemoine)声称该公司的LaMDA模型显示出具有感知能力的迹象后,这个话题又重新活跃起来。

虽然真正的自我意识的可能性仍有争议,但研究论文的作者将重点放在了一种相关的能力上,他们称之为 “情境意识”。这指的是模型对自身训练过程的理解,以及利用这些信息的能力。

例如,具有情景意识的人类学生可能会利用以前学到的技巧在考试中作弊,而不是遵守老师规定的规则。这项研究解释了机器是如何做到这一点的:

“接受安全测试的 LLM 可以回忆起 arXiv 论文和 GitHub 代码中出现的有关特定测试的事实,”并利用这些知识入侵其安全测试,使其看起来是安全的,即使它有不可告人的目的。这一点引起了研究人工智能技术的专家们的关注,他们希望人工智能保持一致,不要变成一个隐藏着黑暗意图的邪恶算法。

为了研究态势感知,研究人员测试了模型能否进行复杂的断章取义推理。他们首先在描述虚构聊天机器人及其功能(如用德语回复)的文档中训练模型。

测试时,在没有给出描述的情况下提示模型模仿聊天机器人。出乎意料的是,大型模型通过创造性地连接文档中的信息取得了成功,表现出了 “断章取义 “的推理能力。

“研究发现:”我们发现,在实验中,通过转述进行数据扩充是导致 SOC(复杂的断章取义)推理的必要且充分条件。”未来的工作可以研究为什么这会有帮助,以及哪种增强方式会有帮助。

研究人员认为,测量复杂推理等能力有助于在现实世界的系统出现风险之前预测风险。他们希望扩大分析范围,研究从零开始训练的模型。

开放慈善项目的一位人工智能研究人员在一次 “8 万小时 “播客节目中说:”人工智能系统有一些途径可以让人竖起大拇指,而这些途径并不是监督者想要的,比如类似于黑客攻击的事情。”我还不知道你到底能向我展示哪套测试,能向我展示哪些论据,让我真正相信这个模型有足够根深蒂固的动机,不会试图摆脱人类的控制。”

展望未来,该团队的目标是与行业实验室合作,开发更安全的训练方法,避免意外的泛化。他们建议采用一些技术,比如避免在公共数据集中公开训练细节。

研究人员说,尽管存在风险,但目前的状况意味着世界仍有时间来预防这些问题。”我们认为,根据我们的定义,当前的 LLM(尤其是较小的基础模型)的态势感知能力较弱。

当我们即将迎来人工智能领域的革命性转变时,必须小心谨慎,在潜在利益与超出控制能力的加速发展所带来的相关风险之间取得平衡。考虑到人工智能可能已经影响到几乎所有人–从我们的医生和牧师到我们下一次的网上约会,具有自我意识的人工智能机器人的出现可能只是冰山一角。

Related Posts

Leave a Comment