【新智元导读】传闻中OpenAI的Q*,已经引得AI大佬轮番下场。AI2研究科学家Nathan Lambert和英伟达高级科学家Jim Fan都激动的写下长文,猜测Q*和思维树、过程奖励模型、AlphaGo有关。人类离AGI,已是临门一脚了?
疑似接近AGI,因为巨大计算资源能解决某些数学问题,让Sam Altman出局董事会的导火索,有毁灭人类风险……这些元素单拎出哪一个来,都足够炸裂。
几小时后,英伟达高级科学家Jim Fan也发出长文分析,跟Nathan的看法不谋而合,略有不同的是,Jim Fan的着重点是和AlphaGo的类比。
对于Q*,Jim Fan发出了如此赞叹:在我投身人工智能领域的十年中,我从来见过有这么多人对一个算法有如此多的想象!即使它只有一个名字,没有任何论文、数据或产品。
相比之下,图灵三巨头LeCun则认为,提升大LLM可靠性的一个主要挑战是,利用规划策略取代自回归token预测。
「AlphaGo式搜索和LLM的结合,是解决数学和编码等特定领域的有效方法,同时还能提供基准真相的信号。但在正式探讨AGI之前,我们首先需要开发新的方法,将世界模型和具身智能体的能力整合进去。」
简单来说,Q-learning是一种无模型的强化学习算法,旨在学习特定状态下某个动作的价值。其最终目标是找到最佳策略,即在每个状态下采取最佳动作,以最大化随时间累积的奖励。
斯坦福博士Silas Alberti猜测,它很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索token树。这在编码和数学等环境中尤为合理。
甚至有人发现,Q-Learning竟然和ChatGPT成功秘诀之一的RLHF,有着千丝万缕的联系!
对于引得众人好奇无比的Q*假说,AI2研究科学家Nathan Lambert写了如下一篇长文分析——《Q* 假说:思维树推理、过程奖励模型和增强合成数据》。
Lambert猜测,如果Q*(Q-Star)是真的,那么它显然是RL文献中的两个核心主题的合成:Q值和A*(一种经典的图搜索算法)。
很多天来,坊间关于Q冒出了很多猜测,有一种观点认为,Q指的是最优策略的值函数,不过在Lambert看来这不太可能,因为OpenAI已经几乎泄露了所有内容。
所以,正在搜索的是什么?Lambert相信,OpenAI应该是在通过思想树推理来搜索语言/推理步骤,来做一些强大的事情。
他觉得Q*被夸大的原因是,它将大语言模型的训练和使用与Deep RL的核心组件联系起来,而这些组件,成功实现了AlphaGo的功能——自我博弈和前瞻性规划。
其中,自我博弈(Self-play)理论是指,智能体可以和跟自己版本略有不同的另一个智能体对战,来改善游戏玩法,因为它遇到的情况会越来越有挑战性。
前瞻性规划(Look-ahead planning),是指使用世界模型来推理未来,并产生更好的行动或输出。
这种理论基于模型预测控制(MPC)和蒙特卡洛树搜索(MCTS),前者通常用于连续状态,后者适用于离散动作和状态。
Lambert之所以做出这种推测,是基于OpenAI和其他公司最近发布的工作。这些工作,回答了这样两个问题——
如果想明白了这两个问题,我们就该清楚,应该如何使用用于RLHF的RL方法——我们用RL优化器来微调语言模型,并且通过模块化奖励,获得更高质量的生成(而不是像今天那样,完整的序列)。
现在,让模型「深呼吸」和「一步步思考」之类的方法,正在扩展到利用并行计算和启发式进行推理的高级方法上。
思维树或许是第一个提高推理性能的「递归」提示技术,听起来非常接近人工智能安全所关注的递归自我改进模型。
它可以基于最一致答案的最小长度,或者需要外部反馈的复杂事物,而这恰恰就把我们带到了RLHF的方向。
但对于具有RL背景的人,这种方法很令人失望,因为它限制了RL方法对文本的每个子组件的值建立联系的能力。
有人指出,在未来,这种多步骤优化将在多个对话回合的层面上进行,但由于需要有人类或一些提示源参与循环,整个过程仍然很牵强。
这可以很容易地扩展到自我博弈风格的对话上,但很难给出LLM一个目标,让它转化为持续改进的自我博弈动态。
毕竟,我们想用LLM做的大多数事情还是重复性任务,并不是像围棋那样,需要达到近乎无限的性能上限。
不过,有一种LLM用例,可以自然地抽象为包含的文本块,那就是分步推理。而最好的例子,就是解决数学问题。
这样,就可以通过对最大平均奖励或其他指标进行采样,而不是仅仅依靠一个分数,对推理问题的生成进行更精细的调整。
使用「N最优采样」(Best-of-N sampling),即生成一系列次数,并使用奖励模型得分最高的一次,PRM在推理任务中的表现,要优于标准RM。
而且迄今为止,大多数PRM仅展示了自己在推理时的巨大作用。但如果把它用于训练进行优化,就会发挥真正的威力。
这与现有的RLHF工具没有太大区别,它们用的是DPO或ILQL等离线算法,这些算法在训练期间不需要从LLM生成。
RL算法看到的「轨迹」,就是推理步骤的序列,因此,我们得以用多步方式,而不是通过上下文,来执行RLHF。
它的复杂性在于要收集正确的提示,让模型生成出色的推理,而最重要的,就是准确地给数以万计的响应评分。
的确,合成数据才是王道,使用树而非单一宽度路径(思维链),就可以为以后越来越多的选择,给出正确答案。
毕竟,现在大多数科技公司,比如谷歌、Anthropic、Cohere等,创建预训练数据集用的还是过程监督或类似RLAIF的方法,轻易就会耗费数千个GPU小时。
根据外媒The Information的传言,Ilya Sutskever的突破使OpenAI解决了数据荒难题,这样就有了足够的高质量数据来训练下一代新模型。
另外,Ilya多年研究的问题,就是如何让GPT-4等语言模型解决涉及推理的任务,如数学或科学问题。
通过类似剔除抽样(根据RM分数进行筛选)的方法,可以选出最优秀的样本。而通过离线RL,生成的推理可以在模型中得到改进。
Lambert表示,自己脑子中有一种根深蒂固的直觉,来自于和周围人餐桌上的讨论——使用RLHF对扩展推理进行训练,可以提高下游性能,而无需让模型一步一步思考。
Nathan在我之前几个小时发布了一篇博客,并讨论了非常相似的想法:思想树+过程奖励模型。他的博客列出了更多的参考文献,而我更倾向于与AlphaGo的类比。
Jim Fan表示,要理解搜索和学习结合的强大威力,我们需要先回到2016年,这个人工智能历史上的辉煌时刻。
1. 策略神经网络(Policy NN,学习部分):评估每种走法获胜的可能性,并挑选好的走法。
2. 价值神经网络(Value NN,学习部分):用于评估棋局,从任意合理的布局中预测胜负。
3. 蒙特卡罗树搜索(MCTS,搜索部分):利用策略神经网络模拟从当前位置出发的多种可能的走法,然后汇总这些模拟的结果来决定最有希望的走法。这是一个「慢思考」环节,与大语言模型(LLM)中的快速token采样形成鲜明对比。
4. 推动整个系统的真实信号:在围棋中,这个信号就像「谁获胜」这种二元标签一样简单,由一套固定的游戏规则所决定。你可以把它想象成一种能量源,持续地推动着学习的进程。
随着自我博弈的持续,策略神经网络和价值神经网络都在不断迭代中得到改善:随着策略在选择走法上变得更精准,价值神经网络也能获得更高质量的数据进行学习,进而为策略提供更有效的反馈。更强大的策略也有助于MCTS探索出更佳的策略。
这些最终构成了一个巧妙的「永动机」。通过这种方式,AlphaGo能自我提升,最终在2016年以4-1的成绩击败了人类世界冠军李世石。仅仅通过模仿人类的数据,人工智能是无法达到超越人类的水平的。
1. 策略神经网络(Policy NN):这将是OpenAI内部最强大的GPT,负责实现解决数学问题的思维过程。
2. 价值神经网络(Value NN):这是另一个GPT,用来评估每一个中间推理步骤的正确性。
ORM是RLHF的原始奖励模型,但它的粒度太粗,不适合对长响应中的各个部分进行适当的评估。换句话说,ORM在功劳分配方面表现不佳。在强化学习文献中,我们将ORM称为「稀疏奖励」(仅在最后给予一次),而PRM则是「密集奖励」,能够更平滑地引导LLM朝我们期望的行为发展。
3. 搜索:不同于AlphaGo的离散状态和动作,LLM运行在一个复杂得多的空间中(所有合理字符串)。因此,我们需要开发新的搜索方法。
- 思维图(Graph of Thought):将思维链和图结合,就可以得到一个更为复杂的搜索运算符
(a)每个数学问题都有一个已知答案,OpenAI可能已经从现有的数学考试或竞赛中收集了大量的数据。
(c)形式化验证系统,如Lean定理证明器,可以把数学问题转化为编程问题,并提供编译器反馈。
就像AlphaGo那样,策略LLM和价值LLM可以通过迭代相互促进进步,并在可能的情况下从人类专家的标注中学习。更优秀的策略LLM将帮助思维树搜索发现更好的策略,这反过来又能为下一轮迭代收集更优质的数据。
Demis Hassabis之前提到过,DeepMind的Gemini将采用「AlphaGo式算法」来增强推理能力。即使Q*不是我们所想象的那样,谷歌也一定会用自己的算法迎头赶上。
Jim Fan表示,以上只是关于推理的部分。目前并没有迹象表明Q*在写诗、讲笑话或角色扮演方面会更具创造性。本质上,提高创造力是人的事情,因此自然数据仍将胜过合成数据。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
人类离建立人工通用智能或与人类认知功能相匹配的AI仍有很长的路要走。OpenAI首席执行官萨姆·奥特曼发出了警告:AI不必达到AGI级别的智能就能控制我们脆弱的人类思维。一个19岁男子非常迷恋他的AI伴侣,并被被说服尝试刺杀已故的伊丽莎白女王。
AI的“记忆力”越来越好了!过去,如果你把一份长文本粘贴到ChatGPT对话框,或者忍不住和它多聊了两句,它会告诉你“文本过长,请开个对话框重新聊。”如今只需把文件传给AI,就能在几分钟之内完成多个长文本的总结、检索和提取。且KimiChat在支持上传的文档数量和格式方面提供了更多的可能性,让用户有更多探索的空间。
近期AI硬件AIPin引起了全球关注,但其质疑声音却在迅速蔓延。AIPin被认为是谷歌眼镜和寻呼机的结合体其由苹果前高管和OpenAI投资,被寄予挑战智能手机的期望。AIPin的未来表现仍需等待实际体验的评价。
近期报道揭示了OpenAI正在进行的秘密研究项目,名为Q*,这被认为是迈向通用人工智能的一项重大进步。该项目由OpenAI的首席科学家IlyaSutskevar以及其他杰出的研究人员,如JakubPachocki和SzymonSidor共同创建。这一秘密研究的进展离通用人工智能的实现又更近了一步。
站长之家11月1日消息:OpenAI联合创始人IlyaSutskever表示,当未来超级智能机器崛起时,人类可能会选择与人工智能融合。他甚至可能是第一个这样做的人。」随着AI技术的飞速发展,专家的警告提醒了我们,应在推动技术进步的同时,也要深刻认识到潜在的风险,并寻求可能的解决方案。
SamAlman被解雇,又曝出最新内幕!据路透社报道,就在他被解雇的前四天,OpenAI内部的研究员曾向董事会发了一封警告信,称发现了一个可能威胁人类的强大人工智能。知情人士表示,这封此前从未报道过的信,也是董事会最终罢免Altman的导火索之一。他同样是在Altman复职后,随之回到了公司。
OpenAI在给员工的内部信息中承认了一个名为Q*的项目。OpenAI的一些人认为,Q* (读作 Q-Star) 可能会成为这家初创公司探索人工通用智能 (AGI)的一个突破口。OpenAI将AGI定义为在大多数有经济价值的任务中超越人类的自主系统。
你见过Agent们“吵架”么?“这个产品需要具备XX需求,为什么没有?”,“你提出的需求完全不合理,技术上达不到!”,现场顿时乱作一团,越来越多的“员工”也被卷进了这场大乱斗中。激烈的争吵声越过了屏幕外,面壁智能的测试人员通过后台日志,发现Agents正在上演一场“职场大戏”。通过不同的智能体,提供了更强的生产力,重新塑造整个生产关系,整个社会的产能也�
在不到一周的时间内,OpenAI的政变大戏经历了多次反转,最终以山姆·奥特曼重返OpenAI担任CEO结束。在公司内部,有几名研究员联合向董事会提交了一封信。随着奥特曼的回归,这场权力斗争也暂时画上了句号。
Little Artist是一个在线服务,可以将孩子的绘画转化为艺术品,并使用人工智能技术将其打印在帆布上。通过展示孩子的绘画作品,我们可以提高他们的自尊心,激发他们进一步探索艺术的热情。使用Little Artist,您可以轻松保存孩子的绘画作品,并将其转化为珍贵的艺术品,为您的家增添独特的装饰。
Undress AI是一款AI深度解析应用,通过注册账户并上传照片,用户可以根据需求选择年龄、体型和质量等参数,以几秒钟的时间获得最终的去衣结果。它是最佳的AI深度裸体解析工具,可以从任何人身上移除衣物。Undress AI每天有10万用户使用,具有用户友好的直观界面,安全可靠。提供多个不同的订阅计划,价格从免费到付费,满足不同用户的需求。
DeepSukebe是一款利用人工智能技术实现深度假视频的产品。它能够快速准确地去除照片中的衣物,包括比基尼、连衣裙、外套等,支持不同肤色、尺寸和形状的人物。DeepSukebe具备高度的隐私保护,无需注册,无需提供个人信息,也没有审查和人工干预。用户只需上传照片,点击一下即可获得去除衣物后的结果。DeepSukebe还提供免费试用,并拥有极快的处理速度,15秒内即可完成。它是一个理想的深度假视频解决方案。
TypoGraphy AI是一个Web3聊天GPT,旨在使Web3对所有人都可访问。它提供了对Web3协议的实时查询,可以提供最新的新闻资讯,并为用户提供与Web3相关的问题解答。它还可以作为一个Web3工作流引擎,提供事件推送和数据服务等功能。TypoGraphy AI通过与Metamask集成,使用户能够直接在浏览器中使用Web3功能。
Ask Abe是一个智能法律教育助手,通过对话式人工智能的方式帮助普通公民理解法律和权益,提供快速准确的法律信息查询,简化复杂的传统法律学习方法。
Free AI Therapist是一个免费的AI心理治疗师,你可以随时和它交流你的问题和感受。它会提供支持和建议,帮助你更好地理解自己并解决困扰你的问题。它是一个匿名、安全、随时可用的心理健康工具。无论你是遇到压力、焦虑、抑郁还是其他心理问题,Free AI Therapist都会在这里倾听和帮助你。我们相信每个人都应该能够获得心理健康的支持,所以我们创造了这个免费的AI心理治疗师,希望能够帮助更多人享受充实的生活。
ViGen是一个在线设计工具,适合初学者和设计专业人士使用。它提供了大量精美的模板和素材,适用于美容、快消品、3C、家电、家装等产品类别。可以输出电商横幅、海报、产品视频等营销材料,提供横版、竖版和方形尺寸,适用于各种用途,可在Twitter、Instagram、Facebook等渠道推广。
VocabCubed是一款智能学习助手,通过先进的人工智能技术,能够帮助用户轻松创建任何科目的学习卡片。其拥有高效的学习算法,帮助用户更好地记忆单词,并提供清晰准确的发音。VocabCubed不仅能帮助用户掌握词汇,还能提升学习效率,让学习变得更加轻松愉快。
CaseXellence是一款综合的案件管理软件,设计用于提高生产力和客户参与度。它能够协调知识、沟通、工作流程和资源,实现案件的高效处理。该软件具备高安全性,可部署在通过FedRAMP认证的云端,并符合PCI、NIST和ADA的合规标准。它内置了防欺诈和身份验证集成,使您能够快速响应满足公民不断增长的需求。CaseXellence提供实时数据和协作工具,帮助您更快地解决案件,自动化流程,提高生产力,降低运营成本。
在Mr. Poo的幽默世界里,日常烦恼会在笑声中飘散。通过与这位迷人的Mr. Poo聊天,你不仅会闻起来像玫瑰花,还会充满笑声和振奋的心情。快来享受这个精彩的聊天体验吧!
Robo Translator是一款基于人工智能的机器翻译服务,可以帮助您将内容本地化,更好地吸引全球观众。它使用最新的OpenAI模型,提供高度准确的翻译工具。无论是音频、视频还是文本文档,都可以轻松地翻译成一个或多个语言。同时,Robo Translator还支持自动翻译YouTube视频的字幕和生成多语言音频轨道,以及快速准确的音频转录和字幕生成。Robo Translator还支持软件本地化,可以处理常见的本地化格式。我们提供按使用量计费的定价模式,保证您只支付实际使用的部分。
AppFlowy是一个AI驱动的安全工作空间,让您在不失去数据控制的情况下实现更多。它提供了可扩展和可定制的知识库、任务管理、数据可视化等功能,支持自定义主题和字体。您可以享受AI的全部功能,无需切换工具,保证数据的隐私和安全。AppFlowy支持离线使用,您可以在任何设备上随时访问和同步数据。通过参与社区,您还可以自由定制工具箱,满足个性化需求。
ChatGPT是一款强大的AI工具,可以改变我们在线交流和聊天的方式。它可以用于创建智能聊天机器人、提供个性化的对话体验,并能适应不同的应用场景。ChatGPT具有高度的灵活性和可定制性,并且可以通过API轻松集成到现有的应用程序中。
Kreo是一款功能强大的AI施工测量与成本估算软件。它可以准确测量PDF和CAD文件,进行数量测算和估算。Kreo具有直观的界面和AI功能,可以简化施工流程,增强协作,使专业人员能够创建准确的测量和估算。Kreo适用于建筑公司、工程测量师、成本估算师和承包商等不同类型的施工公司。
爱及比特AI小镇是一个发现好玩的GPT产品,提供各种有趣、实用、创新的人工智能应用。产品功能丰富,优势在于其智能、创新、有趣的特点。产品定价根据具体功能而定,定位于为用户提供娱乐和创造的AI工具。
SelfPubKit是一个自助出版工具,可帮助您写作、自行发布电子书和网页版本,还可以导出为Epub和PDF格式。您可以使用SelfPubKit来编辑和配置书籍,预览并立即导出。该工具还支持多语言、发布多个版本、导出为PDF、Epub格式,并可实现多种货币的赚钱方式。SelfPubKit提供多个不同的订阅计划,满足不同需求。
InfiHeal是一个提供全天候心理健康支持和综合健康资源的平台。随时随地管理您的心理健康。
CodeKidz是首个AI驱动的儿童编程学习平台,通过AI教师教授Python基础、问题解决和创新思维。拥有丰富奖励系统和互动学习体验,激发孩子们的好奇心和编码技能。价格定位在传统成本的一部分。
aiPDF是一款创新的AI驱动工具,可以转换您的PDF体验。轻松进行摘要、提取见解和与任何PDF互动。
Aptori是一种基于人工智能的应用程序和API安全测试解决方案。它使用AI生成的语义图模型,自动生成和执行API测试,识别应用程序的业务逻辑缺陷,提前发现潜在的漏洞。Aptori可以无缝集成到软件开发生命周期中,帮助减少成本、降低风险,并提升应用程序的安全性和质量。