尊龙人生就是博

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

逾越CoT!微软剑桥中科院提出MVoT ,直接可视化多模态推理历程

2025-02-14 02:23:22
来源:

猫眼影戏

作者:

雷平

手机检察

  猫眼影戏记者 当贝尔 报道P6F9A2Y5R3B1T0V4X8W

新智元报道 编辑:KingHZ 【新智元导读】近日 ,微软和剑桥大学宣布推理新要领:多模态思维可视化MVoT 。新要领可以边推理 ,边「想象」 ,同时利用文本和图像信息学习 ,在实验中比CoT拥有更好的可解释性和稳健性 ,庞大情况下甚至比CoT强20%  ;箍梢杂隒oT组合 ,进一步提升模型性能 。 大模型也学会了「空间想象力」?还可以自己解释自己? 在大语言模型(LLMs)和多模态大语言模型(MLLMs)中 ,思维链(CoT)在庞大推理方面很是有效 。 然而 ,关于庞大的空间推理 ,CoT体现不佳 。 但人类的认知能力不但限于语言 ,还能够同时用词语和图像推理 。 受这一机制的启发 ,来自微软研究院、剑桥大学和中科院的研究人员 ,在思维链提示的基础上 ,提出了空间推理(spatial reasoning)新范式:多模态思维可视化(MVoT) 。 论文地点:https://arxiv.org/pdf/2501.07542 将思维链(CoT)扩展到多模态模型 ,已有的要领尽管能够处理文本和图像 ,但或者严重依赖于独立的视觉?榛蛲獠抗ぞ ,难以适应更庞大的空间推理任务 ;或者可视化太过简化 ,推理历程难以理解 。 论文作者Chengzu Li在X上解释MVoT的焦点设计理念:「MVoT逾越了思维链(CoT) ,可以让AI利用生成的视觉图像去想象它的思考 。通过融合语言和视觉推理 ,MVoT使庞大问题的解决变得越发直观、可更具解释性、越发强大 。」 具体而言 ,MVoT要微调自回归多模态大语言模型(MLLM) 。为了提升推理历程的可视化质量 ,引入了token差别损失 ,弥补了划分训练的分词器(tokenizer)的差别 。 文章亮点: 多模态思维可视化(MVoT)将文本与视觉统一在推理历程中 ,将自然生成视觉思维作为推理历程的一部分 。 在Chameleon-7B中实现了MVoT ,并在自回归多模态大语言模型(MLLM)中引入了token差别损失(token discrepancy loss) ,以弥补划分训练的文天职词器和图像分词器之间的差别 。 实验结果标明 ,MVoT在庞大场景中比思维链(CoT)更优的适应性和稳健性 。 MVoT和CoT组合可以进一步提高性能上限 。 架构 给定一个多模态输入序列 ,模型需要生成交织的多模态思维 ,作为推理历程的组成部分 ,并最终生成最终谜底 。 设 体现一个预训练的多模态大语言模型(MLLM) ,其参数为θ ,x体现多模态输入序列 ,z和v划分体现语言思维序列和图像思维序列 。 在多跳(multi-hop)空间推理任务中 ,给定输入x ,思维链(CoT)提示生成中间办法 其中每个样本基于输入和之前生成的办法顺序采样 。最终的输出基于所有先前的办法得出 。 MVoT通过为每其中间办法添加图像v^i可视化来增强这一历程 ,然后凭据先前的办法 和可视化 采样后续办法 ,如图1所示 。 图1:多模态思维可视化(MVoT)推理历程与其他要领的比照 多模态思维可视化(MVoT)让多模态大语言模型(MLLMs)能在差别模态之间生成交织的推理轨迹 。 古板的CoT仅依赖于语言思维 ,而MVoT则通过增进视觉思维来可视化推理轨迹 。 这个推理范式类似于人类的认知方法 ,能够无缝地在文字和图像之间进行思维 。 训练 多模态序列建模如图3所示 ,使用Chameleon的架构 ,利用统一的Transformer来处理图像和文本token 。 该架构集成了两个tokenizer: 图像tokenizer使用离散的码本(codebook)将输入图像编码为一系列图像token ;文本tokenizer则将文本数据映射为相应的token序列 。 这些token序列被连接在一起并由因果Transformer模型处理 。 损失函数 因果Transformer模型利用下一个token预测目标进行微调 ,同时两个tokenizer在整个历程中坚持冻结状态 。 训练的损失函数要同时考虑图像token差别损失  ,以及文本token和图像token的交叉熵损失  ,界说如下 。 其中token差别损失要对与真实标签显著偏离的token施加处分 ,弥合了语言建模与视觉嵌入空间之间的差别 ,同时确保梯度的连续性 。 实验结果 有效性实验 作者在三个动态空间推理任务中进行大宗实验 ,验证了MVoT的有效性 。 MAZE和MINIBEHAVIOR聚焦于与空间结构的交互 ,而FROZENLAKE强调在动态情况中的细粒度模式识别 。 实验结果标明 ,MVoT在任务中的体现具有竞争力 ,在高难度的FROZENLAKE场景中 ,MVoT的体现比古板的思维链(CoT)横跨了20%多 。 差别系统变体在任务中的实验结果 。 三个模拟任务的实验结果标明 ,Direct保存过拟合问题 ,准确率约为70% 。 GPT-4o的体现更差 。相比之下 ,MVoT展现出不绝的革新 。 在MAZE和MINIBEHAVIOR上 ,MVoT的准确率凌驾90% ,可与CoT相媲美 。 而在FROZENLAKE上 ,MVoT的准确率为85.60% ,优于Direct和CoT 。 这标明MVoT比CoT拥有更好的稳定性和稳健性 。 别的 ,MVoT还提供了语言和视觉形式的中间推理状态 ,可以更清晰、更直观地舆解推理历程 。 定性剖析 图4展示了FROZENLAKE中生成图像的正确与过失示例 。 可视化生成的过失分类如下: (1)过失可视化(Wrong Visualization):生成的可视化内容禁绝确 。 (2)多余图形(Redundant Patterns):在预期修改区域外可视化了不须要或无关的图形 。 图4:定性剖析示意图 。 别的 ,与MAZE和MINIBEHAVIOR相比 ,在FROZENLAKE任务中 ,视察到随着模式庞漂后的增加 ,生成图像的细节经 ;岜涞媚: 。 在重建的图像与原始图像之间也视察到类似的差别 。 这种变异性经常导致细粒度细节的丧失或扰动 ,反应了MLLM在表达能力上的局限性 。 定量剖析 为了评估生成的视觉推理的质量 ,基于已识别的过失类型界说了自动化评估指标: 可视化准确率(V-Acc.):权衡在网格中对应于下一步操作的预期修改是否被准确可视化 。 可视化模式冗余度(V-Red.):评估目标修改区域之外是否保存非预期的视觉模式 。 可视化正确办法(V-Steps):操作序列中前k个连续正确可视化的平均长度 。 可视化正确比率(V-Ratio):操作序列中前k个连续正确可视化的平均比例 。 作者报告了MAZE和MINIBEHAVIOR中可视化位置的定量结果 ,如下所示 。 表3:token差别损失对MVoT视觉思维定量指标的影响 上图中 ,最佳结果以加粗形式标出 。带有↑的指标体现值越高性能越好 ,反之亦然 。 Token差别损失函数剖析 Token差别损失提高了可视化的准确性并减少了冗余 。 如表3所示 ,token差别损失增强的MVoT能够生成高度准确且模式冗余最小的可视化内容 。 纵然在递归生成场景中 ,在推理历程中依然实现了95%的平均正确和连续可视化 。 相比之下 ,缺少token差别损失会显著降低生成质量:没有的MVoT经 ;嵘啥嘤嗤夹 ,且未能准确捕获状态转换 。 这些结果与图像编辑场景中的发明一致 ,如图5所示 ,图中展示了MAZE在差别训练周期的定量指标 。 图5:MAZE在差别训练周期的定量指标 MVoT和CoT的组合 MVoT在推理中与CoT的能力可以相互增补 。 正如作者Chengzu Li所言:「MVoT不会取代CoT ,而是提升了CoT 。通过组合MVoT和CoT ,多模态推理和语言推理的协同作用解锁了性能上限 ,证明两种推理范式可能比一种更好!」 在两种要领的组合中 ,如果MVoT或CoT中的任一要领生成了正确的预测 ,则认为该数据点正确 。 如表4所示 ,在MAZE和MINIBEHAVIOR上 ,上限性能抵达了接近100%的准确率 ;在FROZENLAKE上 ,抵达了92%的准确率 。 表4:通过组合CoT和MVoT在三个任务中的预测所抵达的性能上限 。 文中也讨论了消融实验 ,并在附录中给出了更多的实验细节 。 虽然 ,这项研究也有局限性 ,作者建议借鉴扩散模型中的图像生成技术 ,作为未来革新的偏向 。 别的 ,在推理历程中 ,显式生成可视化会引入盘算开销 。 为了解决这一问题 ,作者提倡进一步研究使用更少token的紧凑的图像体现 ,以降低可视化生成的盘算本钱 。 作者介绍 共一作者Chengzu Li在微软研究院实习时加入了全程事情 。目前 ,他是剑桥大学语言技术实验室的盘算、认知与语言学博士生 。在攻读博士学位之前 ,他在剑桥大学盘算机科学系获得了高级盘算机科学硕士学位 。他本科就读于西安交通大学自动化专业 。 共一作者Wenshan Wu , 目前是微软亚洲研究院(MSRA)的高级研究软件开发工程师 。之前 ,曾在腾讯担当软件工程师 。她从中国科学院获得了硕士学位 。 参 考资料: https://arxiv.org/abs/2501.07542 https://x.com/li_chengzu/status/1879168974988173573

??时事1:精品国内自产拍在线观看尤物

??02月14日,海地安全局势恶化之际,回国遇阻的总理亨利辞职,

  “爷爷 ,没事的 ,我知道小红厉害 ,可我感受不到杀气 ,它对石村没有敌意 。”小不点扑闪着大眼解释道 。

,制服欧美国产日韩精品 。

??02月14日,地方选举遭遇40年未遇“惨败” 英国执政党地位不保?,

  一群人目瞪口呆 ,竟然真的乐成了!

,狼友在这视频,h全彩动漫无遮挡在线观看,伊缅园在线免费入口2022 。

??时事2:一级国产在线毛片

??02月14日,大雪丨积寒凛冽 阴极阳生,

  而这也是柳条第一次施差别的手段 ,可见紫山侯这个第一妙手的特殊 ,名不虚传 。

,PERMITDENY桃子移植,久久九九乱子精品免费,欧美一级免费! 。

??02月14日,中新健康丨蓝皮书:“十四五”以来,各地健康指标得到有效提升,

  1.放假时间:凭据上级的安排 ,端午节放假时间为6月9日至6月11日 ,共三天 ,6月12日(星期天)照常上课 。

,亚洲色图自拍,国产丝袜一区二区在线观看,婷婷色五月天 。

??时事3:欧美无套69视频在线

??02月14日,山西省气象台发布高温红色预警 民众“全副武装”防暑防晒,

  “死!”

,最新亚洲国产黄色视频在线观看,亚洲免费成人,A级国产乱理论片在线观看不卡 。

??02月14日,红海局势持续紧张或将冲击约旦物价,

  村人心中都恼怒 ,那群凶徒嚣张之极 ,来到这里后凌辱族人 ,践踏他们的尊严 ,基础没有将他们看在眼里 。

,火辣app官方引导下载,国产黄色网站wwww,天天拍天天舔 。

??时事4:亚洲中文偷拍另类

??02月14日,海关总署推进“四下基层”常态化长效化,

  他人虽小 ,可是力气大的惊人 ,一跃数米高 ,这样落下 ,重重踩在狈风的脸上 ,是很可怕的一件事 。

,欧美性爱AAAAAAAA,cls逹葢薾的旗帜技术交流区,狼群社区www免费中文 。

??02月14日,第十三届藏传佛教教义阐释研讨会在北京举行,

京东白条逾期说要民事讼怎么办?被起诉还可以协商撤诉吗?

,丰满人妻客车被痴汉侵犯,快猫搜索末成年app,亚洲愉拍自拍欧美精品小说 。

【山西大同:国内外航模高手竞逐蓝天】

【王毅阐明中方关于台湾局势严正立场】

责编:张亚平

审核:杨庆军

责编:马某

相关推荐 换一换

Copyright (C) 2001-2025   dzwww.com. All Rights Reserved

新闻信息效劳许可证 - 音像制品出书许可证 - 广播电视节目制作经营许可证 - 网络视听许可证 - 网络文化经营许可证

山东省互联网传媒集团主办  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001-2025 Dzwww   鲁ICP备09023866号-1

网站地图