首页 > 汽车自驾 > 汽车自驾 > 华为发布业界首个扩散语言模型Agent,部分场景提速8倍!

华为发布业界首个扩散语言模型Agent,部分场景提速8倍!

发布时间:2026-02-10 17:35:16

大模型通往现实世界的“最后三公里”,Agent已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化:

衡量一个Agent够不够强,早已不再看它能不能“答对问题”,而是看它在面对多轮推理、工具调用及复杂协作时,能否用最短的路径、最少的交互预算,稳定地搞定任务

在这一背景下,一个长期被行业忽视的底层命题浮出水面:

 

  • 当Agent的框架、工具、数据和训练方式都保持一致时,仅仅改变语言模型的生成范式(Autoregressive vs Diffusion),是否会系统性地改变Agent的规划与行为模式?

 

近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在最新工作《DLLM Agent: See Farther, Run Faster》中,对这一问题给出了迄今为止最“对照实验式”的回答。

他们发现,仅仅是把“底座”换成了扩散式大模型(DLLM),Agent就像突然开了“上帝视角”,执行速度不仅提升了30%以上,甚至在部分复杂任务中跑出了8倍于传统AR模型的效率。

文章链接:
https://arxiv.org/pdf/2602.07451

官方网页:
https://noah-dllm.github.io/

 

核心结论一览

 

在完全相同的Agent工作流、训练数据和交互预算下,研究发现:

 

  • 在准确率基本持平的前提下,DLLM Agent端到端执行速度平均提升30%以上
  • 在成功解题的条件下,DLLM Agent使用更少的交互轮次和工具调用
  • DLLM展现出更强的planner能力:更早收敛到正确轨迹、回溯和冗余更少;
  • 这种优势并非仅来自并行解码速度,而是体现在Agent级别的规划与决策行为上。
一个“极端公平”的对照实验设计

 

为了避免“框架差异”、“提示工程”、“数据不一致”等干扰因素,作者采用了非常严格的对照实验设置:

 

  • 使用同一个Agent框架:DeepDiver(多智能架构,层级式规划,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
  • 使用同一套工具接口与解析规则
  • 使用完全相同的Agent任务进行继续训练;
  • 统一context长度上限(32K)、最大交互轮数、tool call上限
  • 唯一变化因素:Agent背后的生成范式

 

Autoregressive LLM(AR):openpangu 7b-v1

Diffusion Large Language Model(DLLM):openpangu diffusion 7b,这个模型是从openpangu 7b-v1续训得到的,模型的基础推理能力相似。

这意味着,实验中观察到的行为差异,不能归因于数据/模型的基础能力或workflow,而只能来自生成范式本身。

不过,考虑到生成范式的不同,针对多轮长链交互的DLLM训练,作者使用了针对性调整的Mask策略和Attention裁剪策略,提升了DLLM Agent训练和推理的一致性。

 

同样的终点,更短的路径

 

在构建了对照平台后,研究团队将关注点转向了核心指标:即DLLM这种生成范式的改变,究竟能在多大程度上提升Agent的实战表现?

实验结果证明,DLLM Agent的优势并非仅仅来自“算得快”,更在于它在复杂规划中“走得直”

1、BrowseComp-zh基准测试:效率的全面跨越

研究团队在包含110条任务的BrowseComp-zh(中文多轮Web浏览)子集上,完成了性能测试。



通过对海量测试结果的深度复盘,研究人员观察到了几个关键规律:

DLLM Agent在准确率持平的情况下,

 

  • 平均工具调用次数显著减少;
  • Agent轨迹平均更短;
  • 端到端延迟下降约30%。

 

但同时也暴露出一个现实问题:原生DLLM更容易产生结构化tool-call错误。

此外,作者还展示了DLLM Agent和AR Agent在Information Seeker完成问题上的分布,可以清晰地看到DLLM Agent在处理问题时,往往能以更少的交互次数完成同样的任务。



2、案例实录:8.18倍速度落差的背后

为了更直观地展现这种“走直路”的能力,可以看一个典型的多约束检索案例(涉及动物命名+中国互联网公司+团队合并+软硬件等多个维度),query如下:



结果发现,尽管AR Agent和DLLM Agent最终都给出了正确答案,但其执行逻辑却展现出巨大的差异,不仅表现在端到端有8.18×的速度差异上(如下表):



也表现在具体的planner执行过程上——

DLLM Agent的planner质量更高,从而在部分case上表现出来远超过基础模型的效率差异的端到端性能收益。



 

DLLM为何是天生的“强Planner”?

 

论文并未停留在表面的数据对比,而是深入分析了entropy和confidence与扩散过程中的内部动态,试图从生成范式的底层原理,来解释DLLM为何在规划上更具优势。

一、Planner Agent:先全局、后细节

在任务拆解阶段,DLLM Planner表现出独特的两阶段特征,这与人类先构思大纲再填补内容的思维方式不谋而合:

阶段一:并行提取关键信息

用户问题中的4个核心约束,往往在1–2个diffusion step内就能被同时识别。

阶段二:逐步细化任务结构

在已有全局框架下,再逐步补充具体的逻辑细节。

这与AR的差异,主要体现在:

 

  • AR必须按token顺序“边想边写”;
  • 一旦早期判断偏差,往往只能通过多轮todo/re-plan/verification来修正。

 

这也直接解释了,为什么AR Agent在实验中更容易产生多个todo_v1/todo_v2冗余规划文档的原因。下图详细解释了planner在这个过程中的变化:



二、Information Seeker:先定方向,再填参数

在具体的工具调用阶段,DLLM的生成模式呈现出一种极其稳定的结构化倾向:

 

  • 它会首先确定调用哪个工具;
  • 随后,并行生成参数与细节;
  • 整个tool-call被视为一个整体“动作块”,并在生成过程中被反复refinement。

 

相比之下,AR Agent的生成过程更像是一条不可回头的流水线:函数名→参数1→参数2→ …

一旦前面的token出现语法或逻辑错误,AR无法原地修正,只能寄希望于下一轮tool call来补救



三、注意力演化:确定性的迅速锁定

研究团队通过对扩散过程中Mask Token的熵(Entropy)演化,以及不同阶段Attention的集中与分散的分析,得出了更深层的结论:

 

  • 在DLLM的生成过程中,高不确定性集中在决策的早期阶段
  • 一旦高层决策形成,后续细节的生成会表现出极高的收敛速度
  • attention机制呈现出更明显的“全局 → 局部”协调模式,这与AR仅仅追求token-level的局部最优决策,形成了鲜明对比。

 

不过,作者并没有回避DLLM的不足之处——

Diffusion模型在处理Agent场景时,对结构化输出更敏感

通过设计训推一致的Mask策略与Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

这意味着,要充分发挥DLLM的潜力,并不能将其作为AR的简单替代品,而需要针对Agent的交互场景,重新对齐接口与训练目标

汽车自驾更多>>

ICLR 2026 | SEINT:高效的跨空间刚体不变度量 1700个OpenClaw Skills,我用多邻国的方式学会的! 想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下 2026开年关键词:Self-Distillation,大模型真正走向持续学习 机器人慢半拍难题:南洋理工解决VLA致命短板,动态世界断层领先 蚂蚁投了一家上海具身智能公司 华为发布业界首个扩散语言模型Agent,部分场景提速8倍! 中国信通院:2025年12月国内市场手机出货量2447.3万部 同比下降29.1% 荣耀WIN系列手机全面适配《三角洲行动》游戏原生165超高帧 AYANEO Pocket PLAY游戏手机官宣搭载天玑9300处理器 高通骁龙8 Elite Gen6 Pro特调版偷跑:采用2nm工艺 三星独占 国产开源模型卷赢Gemini 3 Pro、GPT-5.2,最强多模态推理大模型易主? 阿里加入春节档红包大战 千问APP春节期间将向用户推红包福利 “中国上海”门户网站数据出境专区正式上线 谷歌工程师抛出5个残酷问题:未来两年,软件工程还剩下什么? 京东健康发布AI产品“知医” 百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应 亚洲最大宜家关门,意味着什么? 国家统计局:CPI低位运行既与国内外宏观经济形势复杂变化有关 也与我国发展阶段相关 北京买房选销冠,招商序跨代好房引爆亦庄 安克与飞书联合发布“安克AI录音豆” :录音可在飞书中被AI调用,售价899元 花旗:上调信义玻璃(00868)汽车玻璃业务估值倍数 目标价升至9.01港元 “活字”盘活长城汽车 “归元”回归造车本源 阿里千问加入“一句话点外卖” 不用等了,丰田GR GT准备“截胡”下一代日产GT-R! 全新小鹏G01谍照,超5m大六座SUV,“广州揽胜”吗? 本田换标 能否换量|汽势观察 黄金、白银双双创历史新高,有金饰品牌较前日上涨29元/克 解码基金“擒牛术”:布局十倍股的三大核心逻辑 人工智能板块,20%批量涨停!920207,连续30%封板!