尊龙人生就是博

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

如何优化测试时盘算?解决「元强化学习」问题

2025-02-13 16:40:10
来源:

猫眼影戏

作者:

史蒂夫

手机检察

  猫眼影戏记者 吴学证 报道P6F9A2Y5R3B1T0V4X8W

选自ml.cmu.edu 作者:Amrith Setlur、Yuxiao Qu 等 机械之心编译 优化大模型的测试时盘算是提升模型安排效率和节省盘算资源的要害一环。前段时间 ,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型生长的三条曲线之一。如何优化测试时盘算成为业界关注的重要课题。 到目前为止 ,革新大型语言模型 (LLM) 的主要战略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。 不幸的是 ,这种扩展形式似乎很快就会遇到瓶颈 ,预训练的扩展定律会趋于稳定 ,有报告称 ,用于训练的高质量文本数据可能在 2028 年耗尽 ,特别是关于更困难的任务 ,例如解决推理问题 ,这似乎需要将目今数据扩展约 100 倍才华看到任何显著的革新。LLM 在这些困难任务中的问题上的目今体现仍然不尽如人意。因此 ,迫切需要数据高效的要领来训练 LLM ,这些要领可以逾越数据扩展并解决更庞大的挑战。 在这篇文章中 ,我们将讨论这样一种要领:通过改变 LLM 训练目标 ,我们可以重用现有数据以及更多的测试时盘算来训练模型以做得更好。 博客地点:https://blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem/ 图 1:训练模型以优化测试时盘算并学习「如何发明」正确谜底 ,而不是学习输出「什么谜底」的古板学习范式。 目今训练模型的主要原则是监督它们为输入爆发特定的输出。例如 ,监督微调实验匹配给定输入的直接输出 token ,类似于模仿学习 ,而 RL 微调训练响应以优化奖励函数 ,该函数通常应该在 oracle 响应上取最高值。无论哪种情况 ,我们都在训练模型以爆发它可以体现的 y* 的最佳近似值。 从笼统上讲 ,这种范式训练模型以爆发单个输入输出映射 ,当目标是直接解决给定漫衍中的一组类似盘问时 ,这种要领很有效 ,但无法发明漫衍外盘问的解决计划。牢固的、一刀切的要领无法有效适应任务的异质性。我们更希望有一个强大的模型 ,它能够通过实验多种要领并在差别水平上寻求信息 ,或者在无法完全解决问题时表达不确定性 ,从而推广到新的、未见过的问题。 我们如何训练模型来满足这些要求? 学习「如何回覆」 为了解决上述问题 ,一个新想法是允许模型在测试时使用盘算资源来寻找「元(meta)」战略或算法 ,这些战略或算法可以资助它们理解「如何」得出一个好的谜底。 实现能够付与模型系统性程序运行能力的元战略 ,应该能够使其在测试时外推和泛化到差别庞漂后的输入盘问。例如 ,如果一个模型被教了柯西 - 施瓦茨不等式的寄义 ,它就应该能够在简单和困难的证明问题上在适当的时候运用它;痪浠八 ,给定一个测试盘问 ,我们希望模型能够执行包括多个基本推理办法的战略 ,这可能需要消耗更多的 token。 图 2 展示了解决一个给定问题的两种差别战略的例子。我们如何训练模型来做到这一点呢?我们将把这个目标形式化为一个学习问题 ,并通过元强化学习的思路来解决它。 图 2: 展示了两种算法及其各自生成的 token 流示例。 将学习「如何做」形式化为一个目标 关于每个问题 x∈X ,假设我们有一个奖励函数 r (x,?):Y?{0,1}, 可以针对任何输出 token 流 y 进行盘问。例如 ,关于数学推理问题 x ,其 token 输出流为 y ,奖励 r (x,y) 可以是检查某个 token 子序列是否包括正确谜底的函数。我们只获得了训练问题数据集 D_train, 因此也只有奖励函数荟萃 {r (x,?):x∈D_train}。我们的目标是在事先未知的测试问题漫衍 P_test 上获得高奖励。测试问题的难度可能与训练问题差别。 关于未知的测试问题漫衍 P_test 和有限的测试时盘算预算 C ,我们可以从训练问题数据集 D_train 中学习一个算法 A∈A_C (D_train), 这个算法属于推理盘算受限的测试时算法类 A_C。这个类中的每个算法都以问题 x~P_test 作为输入 ,并输出一个 token 流。 在图 2 中 ,我们给出了一些例子来资助理解这个 token 流可以是什么。例如 ,A_θ(x) 可能首先包括针对问题 x 的某些实验 token ,然后是一些用于预测实验正确性的验证 token ,如果验证为不正确 ,接着是对初始实验的一些革新 ,所有这些都以「线性」方法串联在一起。另一个算法 A_θ(x) 可能是以线性方法模拟某种启发式引导搜索算法。算法类 A_C (D_train) 将由上述所有可能的 A_θ(x) 爆发的下一个 token 漫衍组成。注意 ,在这些例子中 ,我们希望使用更多的 token 来学习一个通用但可泛化的程序 ,而不是去推测问题 x 的解决计划。 我们的学习目标是学习由自回归大语言模型参数化的 A_θ(x)。我们将这整个流 (包括最终谜底) 称为响应 y~A_θ(x)。算法 A_θ(x) 的效用由奖励 r (x,y) 权衡的平均正确性给出。因此 ,我们可以将学习算法表述为解决以下优化问题: 将 (Op-How) 解释为元强化学习问题 接下来的问题是:我们如何解决由语言模型参数化的、在盘算受限算法类 A_c 上的优化问题 (Op-How)? 显然 ,我们既不知道测试问题的结果 ,也没有任何监督信息。因此 ,盘算外部期望是徒劳的。对问题 x 推测最佳可能响应的「标准」大语言模型战略似乎也不是最优的 ,因为如果充分利用盘算预算 C ,它可能会做得更好。 主要思路是优化 (Op-How) 的算法 A_θ(x)∈A_c ,类似于强化学习中的自适应战略 ,它使用特另外 token 预算来实现某种算法战略来解决输入问题 x。有了这个联系 ,我们可以从类似问题通常的解决方法中获得启发:通过元学习的视角来看待 (Op-How) ,具体来说是元强化学习:「元」是因为我们希望学习算法而不是直接回覆给定问题 ,而「强化学习」是因为 (Op-How) 是一个奖励最大化问题。 一个很是简短的元强化学习入门 通常 ,强化学习训练一个战略来最大化马尔可夫决策历程 (MDP) 中的给定奖励函数。相比之下 ,元强化学习问题设定假设可以会见任务漫衍 (每个任务都有差别的奖励函数和动态特性)。在这种设定下 ,目标是在来自训练漫衍的任务上训练战略 ,使其能够在从相同或差别测试漫衍抽取的测试任务上体现良好。 别的 ,这种设定不是凭据战略在测试任务上的零样本体现来评估它 ,而是让它通过在测试时执行几个「训练」回合来适应测试任务 ,在执行这些回合之后再评预战略。 那么解决 (Op-How) 就对应着找到一个战略 ,该战略能够在盘算预算 C 内快速适应测试问题 (或测试状态) 的漫衍。从认知 POMDP 的视角来看这种测试时泛化的看法是另一种方法 ,这是一个将在 M_x 族上学习战略视为部分视察强化学习问题的结构。这个视角提供了另一种引发自适应战略和元强化学习需求的方法:关于那些有强化学习配景的人来说 ,解决 POMDP 等同于运行元强化学习这一点应该缺乏为奇。因此 ,通过解决元强化学习目标 ,我们正在寻求这个认知 POMDP 的最优战略并实现泛化。 适应性战略如何适应测试问题? 在元强化学习中 ,关于每个测试 MDP M_x ,战略 A_θ 在通过 A_θ 生成最终响应进行评估之前 ,可以通过消耗测试时盘算来获取信息。在元强化学习术语中 ,获得的关于测试 MDP M_x 的信息可以被视为在测试问题 x 引发的 MDP 上收集「训练」回合的奖励 ,然后再在测试回合上进行评估。注意 ,所有这些回合都是在模型安排后执行的。因此 ,为了解决 (Op-How) ,我们可以将来自 A_θ(x) 的整个 token 流视为分成几个训练回合的流。为了优化测试时盘算 ,我们需要确保每个回合都能提供一些信息增益 ,以便在测试 MDP M_x 的后续回合中体现更好。如果没有信息增益 ,那么学习 A_θ(x) 就退化为一个标准的强化学习问题 —— 只是盘算预算更高 —— 这样就不清楚学习「如何做」是否有用。 可以获得什么样的信息?虽然 ,如果 token 流中涉及外部接口 ,我们可以获得更多信息。可是 ,如果不涉及外部工具 ,我们是否在利用免费午餐?我们指出不是这种情况 ,在 token 流进行历程中不需要涉及外部工具也能获得信息。流中的每个回合都可以有意义地增加更多信息 ,也就是说 ,我们可以将消耗更多的测试时盘算视为从模型对最优解的后验近似 P (?|x,θ) 中采样的一种方法 ,其中每个回合 (或输出流中的 token) 都在革新这个近似。因此 ,显式地调解先前生成的 token 可以提供一种盘算可行的方法 ,用牢固巨细的大语言模型来表征这个后验。 综上所述 ,当被视为元强化学习问题时 ,A (?|?) 成为一个历史条件 (「自适应」) 战略 ,通过在给定测试问题上花费最多 C 的盘算来优化奖励 r。 图 3:智能体 - 情况交互协议。图源:https://arxiv.org/pdf/1611.02779 学习自适应战略的元强化学习 图 4:A_θ(x) 的响应包括一串 token。 我们如何解决这样一个元强化学习问题?也许解决元强化学习问题最明显的要领是接纳黑盒元强化学习要领。这将涉及最大化输出轨迹 A_θ(x) 中想象的「episodes」的奖励总和。例如 ,如果 A_θ(x) 对应于使用自我纠正战略 ,那么每个 episode 的奖励将对轨迹中泛起的单个响应进行评分。如果 A_θ(x) 划定了一种在生成和生成验证之间交替的战略 ,那么奖励将对应于生成和验证的乐成。然后我们可以优化: 一般情况下 ,输出 token 流可能无法清晰地分成生成和验证片段。在这种情况下 ,可以考虑元强化学习问题的更笼统形式 ,直接使用信息增益的某种预计作为奖励。 可以通过多轮强化学习要领来解决 (Obj-1) 和 (Obj-2)。实际上 ,只要能够使用某种执行按期在线战略采样的强化学习算法来解决优化问题 ,强化学习要领的选择 (基于价值照旧基于战略) 可能并不重要。 我们还可以考虑另一种制定元强化学习训练目标的要领:只优化测试回合获得的奖励 ,而不是训练回合的奖励 ,从而制止量化信息增益的需要。

??时事1:小凃最新视频

??02月13日,近看外交 | “金砖+” 创造“全球南方”美好未来,

  今年7月12日菲律宾南海仲裁案临时仲裁庭罔顾基本事实作出不法无效的所谓最终裁决结果 ,中国政府第一时间作出不接受、不认可的声明 ,这一天13亿中华子女齐声呐喊 ,誓死守卫每一寸领土!通常有血性的中国人都在用自己的方法与祖国一道同生死、共进退 ,想必你也加入其中了吧。

,九九九成人综合无码视频。

??02月13日,福建泉州:世遗之城 书香氤氲,

寓目《政治掮客苏洪波》教育警示片(精选3篇)

,婷婷五月天在线,99在线无码精品秘 入口APP,午夜国产精品福利区。

??时事2:丰满少妇被猛烈进入高清播放久久

??02月13日,(乡村行·看振兴)福建永定煤农吃上“生态饭”,

  “虽然残废了 ,但留着终究是一个祸殃 ,一剑剁了省事!”二猛的父亲说道 ,很是生猛 ,二话不说 ,轮入手中大剑 ,噗的一声将狈风的头颅给砍了下来 ,血花喷起数尺高。

,www.狠狠鲁,成人久久18㊙️免费观看,老板抱进办公室的情景描写。

??02月13日,北京明十三陵计划2030年前实现陵寝全面开放,

  要加速城镇化进程 ,必须抓住要害 ,创优情况 ,消除影响生长的一些体制机制上的障碍。

,欧美亚洲另类专区,性愛視頻app,亚洲精品国语露脸。

??时事3:欧洲免费一区二区三区视频

??02月13日,2024中国户外运动产业大会开幕,

  小不点落泪 ,伸出一只手 ,主动抓住了那只小手 ,用力的握紧 ,此后一起放在了老人那粗糙的大手中 ,轻声道:“祖爷爷请定心 ,我会照顾好他的!”

,能播放的午夜国产片,A片软件app,人人想摸人人想操。

??02月13日,秘鲁驻华公使谈钱凯港:只有中国把开发落到实处,

消防宁静国旗下精彩 篇16

,a片在线视频导航,免费网站人人干,激情小说亚洲视频。

??时事4:日韩黄色网站视频

??02月13日,前三季度规上轻工企业实现利润超万亿元,

  “诸多部落被灭的场景果真是它发出的。”小不点稍微一催动 ,就再次看到了尸横遍野的画面 ,这骨剪来历惊人。

,按摩师舔屄再插屄视频,吃奶揉胸啪啪啪,播播影院私人影院性播影院。

??02月13日,敦煌冬季旅游渐热,

  列位老师 ,同学们:

,日日射夜夜,东莞水磨床服务流程介绍,古装一级婬片A片AAA毛片。

责编:罗丽娟

审核:张伟华

责编:谢苍发

相关推荐 换一换

Copyright (C) 2001-2025   dzwww.com. All Rights Reserved

新闻信息效劳许可证 - 音像制品出书许可证 - 广播电视节目制作经营许可证 - 网络视听许可证 - 网络文化经营许可证

山东省互联网传媒集团主办  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001-2025 Dzwww   鲁ICP备09023866号-1

网站地图