Home » 什么是 Q* 和 Q-Learning?OpenAI 可能因对人工智能的恐惧而崩溃

什么是 Q* 和 Q-Learning?OpenAI 可能因对人工智能的恐惧而崩溃

by v

这是一个连真正的人类编剧都无法想象的企业间谍故事。去年,OpenAI 引发了全球对人工智能的痴迷,该公司首席执行官山姆-阿尔特曼(Sam Altman)突然被解职并最终复职,成为头条新闻。

即使阿尔特曼又回到了他的起点,但问题的漩涡依然存在,包括幕后发生了什么。

一些人将这场混乱形容为 HBO 级别的 “接班人 “或 “权力的游戏 “之争。还有人猜测,这是因为奥特曼把重心转移到了其他公司,比如世界币。

但最新的,也是最有说服力的说法是,他被解雇是因为一封信: Q.

不愿透露姓名的消息人士告诉路透社,OpenAI 首席技术官米拉-穆拉提(Mira Murati)说,一个被称为 “Q Star “或 “Q*”的重大发现是对阿尔特曼采取行动的动力,而董事会主席格雷格-布罗克曼(Greg Brockman)并未参与这一行动,后者随后辞职以示抗议。

Q*”到底是什么,我们为什么要关心它?这一切都与人工智能发展最可能的路径有关。

揭开Q*的神秘面纱

OpenAI首席技术官米拉-穆拉提(Mira Murati)提到的神秘Q*引起了人工智能界的广泛猜测。这个词可以指两种不同理论中的一种: Q-learning 或马里兰反驳证明程序系统(MRPPS)中的 Q* 算法。了解这两者之间的区别对于把握 Q* 的潜在影响至关重要。

理论 1: Q-Learning

Q-learning是强化学习的一种,是人工智能通过试错来学习决策的一种方法。在 Q-learning 中,代理通过估计行动状态组合的 “质量 “来学习决策。

Source: Simplilearn

Source: Simplilearn


这种方法与 OpenAI 目前的方法–即 “通过人类反馈强化学习”(Reinforcement Learning Through Human Feedback,简称 RLHF)–的区别在于,它不依赖于人类互动,而是自己完成所有工作。
RLHF图。图片:OpenAI OpenAI” src=”https://www.todayscrypto.news/wp-content/uploads/2023/12/[email protected]” width=”828″ height=”362″ /☻

想象一个机器人在迷宫中导航。利用 Q-learning 技术,它可以通过尝试不同的路线来找到通往出口的最快路径,当它接近出口时,就会获得由它自己设计的正奖励,而当它进入死胡同时,就会获得负奖励。随着时间的推移,通过不断尝试和犯错,机器人逐渐形成了一种策略(”Q 表”),告诉它在迷宫中的每个位置应该采取的最佳行动。这个过程是自主的,依赖于机器人与环境的互动。

如果机器人使用 RLHF,而不是自己发现问题,那么当机器人到达一个路口时,人类可能会进行干预,指出机器人的选择是否明智。

这种反馈的形式可以是直接命令(”向左转”)、建议(”试试光线更充足的路径”)或对机器人选择的评价(”好机器人 “或 “坏机器人”)。

在 Q-learning(Q-学习)中,Q* 代表一种理想状态,在这种状态下,机器人确切地知道在每种状态下应采取的最佳行动,从而在一段时间内最大化总的预期回报。用数学术语来说,它满足贝尔曼方程。

早在今年 5 月,OpenAI 就发表了一篇文章,称他们 “训练了一个模型,通过奖励每个正确的推理步骤,而不是简单地奖励正确的最终答案,实现了数学解题的新高度”。如果他们使用 Q-learning 或类似的方法来实现这一目标,那将会解锁一系列全新的问题和情境,而 ChatGPT 将能够原生解决这些问题和情境。

理论 2: 来自 MRPPS 的 Q* 算法


Q*算法是马里兰反驳证明程序系统(MRPPS)的一部分。它是人工智能中定理证明的一种复杂方法,特别是在问题解答系统中。

“Q∗ 算法在搜索空间中生成节点,应用语义和句法信息来引导搜索。语义允许终止路径和探索富有成效的路径,”研究论文写道。

Image: Jack Minker

Image: Jack Minker


解释这一过程的一种方法是,假想侦探夏洛克-福尔摩斯(Sherlock Holmes)试图解决一个复杂的案件。他收集线索(语义信息),并将它们逻辑地联系起来(句法信息),从而得出结论。Q* 算法在人工智能中的作用与此类似,它结合语义和句法信息来引导复杂的问题解决过程。

这意味着,OpenAI 距离拥有一个能够理解现实的模型又近了一步,它已经超越了单纯的文本提示,更接近于虚构的 J.A.R.V.I.S(针对 Z 世代)或蝙蝠电脑(针对潮一代)。

因此,Q-learning 是要教会人工智能从与环境的互动中学习,而 Q 算法则更多地是要提高人工智能的演绎能力。了解这些区别是理解 OpenAI 的 “Q “的潜在意义的关键。这两种算法在推动人工智能发展方面都具有巨大的潜力,但它们的应用和影响却大相径庭。

当然,这一切都只是猜测,因为 OpenAI 并未对这一概念做出解释,甚至也未证实或否认有关 Q* 的传言–不管它是什么–确实存在。

“Q “*的潜在含义

OpenAI传闻中的’Q*’可能会产生广泛而多样的影响。如果它是 Q-learning 的高级形式,这可能标志着人工智能在复杂环境中自主学习和适应能力的飞跃,从而解决一系列全新的问题。这种进步可以提高人工智能在自动驾驶汽车等领域的应用,在这些领域,根据不断变化的条件做出瞬间决策至关重要。

另一方面,如果 “Q “与 MRPPS 中的 Q 算法有关,那么它将标志着人工智能在演绎推理和解决问题的能力方面向前迈出了一大步。这对需要深度分析思维的领域,如法律分析、复杂数据解读,甚至医疗诊断,都将产生特别大的影响。

无论 “Q*”的确切性质如何,它都可能代表着人工智能发展的一个重大进步,因此,它成为 OpenAI 生存辩论的核心这一事实是真实的。它可以让我们更接近更直观、更高效、更有能力处理目前需要人类高水平专业知识才能完成的任务的人工智能系统。然而,伴随着这种进步而来的是对人工智能伦理、安全性以及日益强大的人工智能系统对我们的日常生活和整个社会的影响的质疑和担忧。

Q的好与坏*

Q*的潜在好处:

提高解决问题的能力和效率: 如果 Q* 是 Q-learning 或 Q* 算法的高级形式,那么它可能会导致人工智能系统更高效地解决复杂问题,从而使医疗保健、金融和环境管理等行业受益。

更好的人机协作: 具有更强学习或演绎能力的人工智能可以增强人类的工作能力,从而在研究、创新和日常工作中实现更有效的协作。

自动化的进步:”Q*”可以带来更先进的自动化技术,提高生产率,并可能创造新的行业和就业机会。

风险与担忧:

伦理和安全问题: 随着人工智能系统变得越来越先进,确保其道德和安全运行变得越来越具有挑战性。尤其是当人工智能的行为与人类价值观不完全一致时,就有可能产生意想不到的后果。

隐私与安全: 随着人工智能越来越先进,对隐私和数据安全的担忧也在升级。能够更深入地理解数据并与之互动的人工智能系统可能会被滥用。因此,想象一下,当你欺骗你的浪漫伴侣时,人工智能会给他们打电话,因为它知道欺骗是不好的。

经济影响: 自动化和人工智能能力的提高可能会导致某些行业的工作岗位被取代,这就需要进行社会调整并采取新的劳动力发展方法。如果人工智能几乎无所不能,为什么还要有人类工人呢?

人工智能错位: 人工智能系统可能发展出与人类意图或福利不一致的目标或操作方法,从而可能导致有害结果的风险。试想一下,如果一个打扫房间的机器人一味追求整洁,不断扔掉你的重要文件?或者完全消除混乱的创造者?

人工智能的神话

在人工智能研究的圣杯–人工通用智能(AGI)的追求中,OpenAI 传闻中的 Q* 处于什么位置?

AGI 指的是机器理解、学习和在各种任务中应用智能的能力,类似于人类的认知能力。它是一种能将学习从一个领域推广到另一个领域的人工智能,展现出真正的适应性和多功能性。

无论 Q 是 Q-learning 的高级形式,还是与 Q 算法有关,我们都必须明白,这并不等于实现了 AGI。虽然 “Q*”可能代表着特定人工智能能力的重大进步,但 AGI 包含更广泛的技能和理解。

实现 AGI 意味着开发出一种人工智能,它可以完成人类可以完成的任何智力任务–这是一个难以实现的里程碑。

实现了 Q 的机器并没有意识到自身的存在,其推理能力还无法超越预先训练的数据和人类设定的算法。因此,尽管 “Q “很热门,但它还不是人工智能霸主的预兆;它更像是一台学会了给自己的面包涂黄油的智能烤面包机。

至于说人工智能会带来文明的终结,我们可能高估了自己在宇宙中的重要性。OpenAI的Q*可能离我们梦想(或噩梦)中的人工智能更近了一步,但它还算不上会思考生命意义或自身硅存在的AGI。

请记住,正是 OpenAI 一直在小心翼翼地盯着它的 ChatGPT,就像父母看着拿着记号笔蹒跚学步的孩子一样。虽然 “Q*”是一次飞跃,但 AGI 仍有一段距离,人类的围墙暂时是安全的。

Related Posts

Leave a Comment