威胁人类生存?OpenAI究竟发现了什么?

OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。

尽管OpenAI宫斗大戏告一段落,但仍留下了许多未接的谜题。其中最为关键的,就是现(前)CEO 奥特曼为何会被解雇。

OpenAI CTO Mira Murati此前在致员工的内部信件中提到了一个代号为“Q*”的项目。据她称,该项目为”董事会对奥特曼的一系列不满中的因素之一”。

据多家媒体猜测,Q*让OpenAI实现AGI的步伐大大提速,但奥特曼可能没有和董事会详细披露Q*的进展到底有多大,这也符合董事会在解雇奥特曼时所说的“在与董事会沟通时没有始终保持坦诚”。

就在被解雇之前,奥特曼还在公开活动中表示:

“在OpenAI的历史上,我们已经取得了4次突破,最近一次是在过去的几周里。当我们把无知的面纱撕下,把发现的前沿向前推进时,我就在房间里。”

所谓的第四次突破,指的可能就是Q*项目。

什么是 Q*?

什么是Q*?

Q*读作Q star,目前OpenAI内部没有任何关于Q*的详细信息流出。

据一些业内人士猜测,它可能是是机器学习算法Q-Learning(Q学习)的同义词,也许是OpenAI借助Q学习算法打造的新模型的代号,也许是一个相关的项目名称。

根据天风证券分析师孔蓉的说法:

Q学习是一种基于强化学习的算法,用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略,使智能体在未知环境中做出最佳选择。

Q学习依据贝尔曼方程更新状态-动作对应的Q值,逼近最优值函数。智能体通过与环境交互,观察到新的状态和奖励,来更新执行各个动作的Q值。

所谓贝尔曼方程,也被称为动态规划方程,是指数学家理查德·贝尔曼提出的用于解决复杂多阶段问题的公式,通过求解该方程可以找到最优值函数和最优策略。

威胁人类生存?OpenAI究竟发现了什么?

运行算法的人(或计算机)可以输入一个目标函数,例如“旅行时间最短、成本最低、利润最大、效用最大”等。然后,算法将决定采取何种最佳行动来实现预期结果。

简单来说,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。

据媒体报道,在奥特曼被解雇之前,OpenAI在内部对Q*进行了演示,显示Q*能够解决小学程度的数学问题。

虽然完成小学数学题听起来没什么出色之处,但科技博客PC Guide指出,OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数。

换句话说,Q*可能代表OpenAI找到或接近了效率优化算法的最优解,实现了通往AGI的关键一步。

Q*会产生哪些后续影响?

目前,OpenAI还没有对关于Q*的一系列问题做出回应。

根据天风证券分析师孔蓉的观察,OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown,开展多步推理和多智能体互动方面的研究。

Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI。

OpenAI 近期于 5 月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力。OpenAI 引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性。

据孔融推测,强化学习与决策算法进步或带来Q*大模型能力突破,GPT4 + 强化学习和决策算法,或能实现更强的AI Agent能力。

来自新商纪,发布者:新商纪管理员,转载请注明出处:https://www.nbtimes.net/7836.html

(0)
打赏 微信扫一扫 微信扫一扫
新商纪管理员新商纪管理员
上一篇 2023-11-24 07:56
下一篇 2023-11-24 10:20

相关推荐

  • 伴鱼创始人兼CEO黄河:全场景打造学习闭环,伴鱼只专注效果

    作为在线教育领先的互联网英语学习平台,伴鱼坚持教育初心打造全场景产品服务,通过不断创新模式提升孩子学习体验,专注于输出优质教学内容。未来,伴鱼将在全场景产品服务的道路上,让教育者在5G到来的时代,真正实现因材施教,提供个性化的学习方式。

    2019-12-12 慧教育
  • 2021年8家IPO人工智能独角兽企业及AI未来趋势分析

    距离那场2016年3月份,阿尔法围棋向围棋世界冠军、韩国棋手李世石发起的五番棋人机世界大战已经过去了五年半。分分合合,潮起潮落,人工智能江湖,这五年多的曲折故事,如果用五个词汇来简单做一下总结,在东方林语来看,可以分别形容为:踌躇满志、身经百战、饱经世故、一言难尽、面对现实。

    2021-09-26 人工智能AI
  • 用时间换空间 孤独创新的贝壳正在用技术引领产业可持续向前发展

    孤独创新的贝壳找房,用时间换空间,3年时间将自己打造成为了AI的践行者和产业引领者,推动了居住数字化和服务者职业化进程,助力3亿家庭朝着高质量居住体验迈进……

    2021-11-17 人工智能AI
  • 腾讯揭秘AI+产业版图,AI与产业融合创新构成完整产业驱动链

    2020世界人工智能大会腾讯论坛上,腾讯公布了其AI全景布局,通过”技术-平台-场景”三层AI结构布局,已实现AI在多个领域的广泛落地。伴随AI加速落地产业,产业价值被释放,AI进入与产业融合创新发展的全新阶段,呈现”泛在智能”的趋势。

    2020-07-10
  • 亚马逊展示了模仿死去亲人声音的 Alexa 功能

    亚马逊透露了一项实验性的 Alexa 功能,该功能允许 AI 助手模仿用户死去亲属的声音。源于一个孩子要求 Alexa 用他已故祖母的声音朗读睡前故事。“正如你在这次体验中看到的那样,不是 Alexa 读书的声音,而是孩子奶奶的声音,”亚马逊 Alexa AI 首席科学家 Rohit Prasad 说。

    2022-06-26
  • 深度解析:AI倒逼下的英特尔

    在摩尔定律面临失效,人工智能(AI)复兴的背景下,传统芯片巨头英特尔公司不得不转型,不再依赖CPU单打独斗,通过收购获取适合训练神经网络的芯片。同时,英特尔开始改变长期秉持的信念,外包芯片制造降低成本,缓解交付压力。

    2019-12-09 人工智能AI