华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

大模型通往现实世界的“最后三公里”，Agent已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化：

衡量一个Agent够不够强，早已不再看它能不能“答对问题”，而是看它在面对多轮推理、工具调用及复杂协作时，能否用最短的路径、最少的交互预算，稳定地搞定任务

在这一背景下，一个长期被行业忽视的底层命题浮出水面：

当Agent的框架、工具、数据和训练方式都保持一致时，仅仅改变语言模型的生成范式（Autoregressive vs Diffusion），是否会系统性地改变Agent的规划与行为模式？

近日，来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队，在最新工作《DLLM Agent: See Farther, Run Faster》中，对这一问题给出了迄今为止最“对照实验式”的回答。

他们发现，仅仅是把“底座”换成了扩散式大模型（DLLM），Agent就像突然开了“上帝视角”，执行速度不仅提升了30%以上，甚至在部分复杂任务中跑出了8倍于传统AR模型的效率。

文章链接：
https://arxiv.org/pdf/2602.07451

官方网页：
https://noah-dllm.github.io/

核心结论一览

在完全相同的Agent工作流、训练数据和交互预算下，研究发现：

在准确率基本持平的前提下，DLLM Agent端到端执行速度平均提升30%以上
在成功解题的条件下，DLLM Agent使用更少的交互轮次和工具调用
DLLM展现出更强的planner能力：更早收敛到正确轨迹、回溯和冗余更少；
这种优势并非仅来自并行解码速度，而是体现在Agent级别的规划与决策行为上。

一个“极端公平”的对照实验设计

为了避免“框架差异”、“提示工程”、“数据不一致”等干扰因素，作者采用了非常严格的对照实验设置：

使用同一个Agent框架：DeepDiver（多智能架构，层级式规划，https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；
使用同一套工具接口与解析规则
使用完全相同的Agent任务进行继续训练；
统一context长度上限（32K）、最大交互轮数、tool call上限
唯一变化因素：Agent背后的生成范式

Autoregressive LLM（AR）：openpangu 7b-v1

Diffusion Large Language Model（DLLM）：openpangu diffusion 7b，这个模型是从openpangu 7b-v1续训得到的，模型的基础推理能力相似。

这意味着，实验中观察到的行为差异，不能归因于数据/模型的基础能力或workflow，而只能来自生成范式本身。

不过，考虑到生成范式的不同，针对多轮长链交互的DLLM训练，作者使用了针对性调整的Mask策略和Attention裁剪策略，提升了DLLM Agent训练和推理的一致性。

同样的终点，更短的路径

在构建了对照平台后，研究团队将关注点转向了核心指标：即DLLM这种生成范式的改变，究竟能在多大程度上提升Agent的实战表现？

实验结果证明，DLLM Agent的优势并非仅仅来自“算得快”，更在于它在复杂规划中“走得直”

1、BrowseComp-zh基准测试：效率的全面跨越

研究团队在包含110条任务的BrowseComp-zh（中文多轮Web浏览）子集上，完成了性能测试。

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

通过对海量测试结果的深度复盘，研究人员观察到了几个关键规律：

DLLM Agent在准确率持平的情况下，

平均工具调用次数显著减少；
Agent轨迹平均更短；
端到端延迟下降约30%。

但同时也暴露出一个现实问题：原生DLLM更容易产生结构化tool-call错误。

此外，作者还展示了DLLM Agent和AR Agent在Information Seeker完成问题上的分布，可以清晰地看到DLLM Agent在处理问题时，往往能以更少的交互次数完成同样的任务。

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

2、案例实录：8.18倍速度落差的背后

为了更直观地展现这种“走直路”的能力，可以看一个典型的多约束检索案例（涉及动物命名+中国互联网公司+团队合并+软硬件等多个维度），query如下：

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

结果发现，尽管AR Agent和DLLM Agent最终都给出了正确答案，但其执行逻辑却展现出巨大的差异，不仅表现在端到端有8.18×的速度差异上（如下表）：

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

也表现在具体的planner执行过程上——

DLLM Agent的planner质量更高，从而在部分case上表现出来远超过基础模型的效率差异的端到端性能收益。

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

DLLM为何是天生的“强Planner”？

论文并未停留在表面的数据对比，而是深入分析了entropy和confidence与扩散过程中的内部动态，试图从生成范式的底层原理，来解释DLLM为何在规划上更具优势。

一、Planner Agent：先全局、后细节

在任务拆解阶段，DLLM Planner表现出独特的两阶段特征，这与人类先构思大纲再填补内容的思维方式不谋而合：

阶段一：并行提取关键信息

用户问题中的4个核心约束，往往在1–2个diffusion step内就能被同时识别。

阶段二：逐步细化任务结构

在已有全局框架下，再逐步补充具体的逻辑细节。

这与AR的差异，主要体现在：

AR必须按token顺序“边想边写”；
一旦早期判断偏差，往往只能通过多轮todo/re-plan/verification来修正。

这也直接解释了，为什么AR Agent在实验中更容易产生多个todo_v1/todo_v2冗余规划文档的原因。下图详细解释了planner在这个过程中的变化：

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

二、Information Seeker：先定方向，再填参数

在具体的工具调用阶段，DLLM的生成模式呈现出一种极其稳定的结构化倾向：

它会首先确定调用哪个工具；
随后，并行生成参数与细节；
整个tool-call被视为一个整体“动作块”，并在生成过程中被反复refinement。

相比之下，AR Agent的生成过程更像是一条不可回头的流水线：函数名→参数1→参数2→ …

一旦前面的token出现语法或逻辑错误，AR无法原地修正，只能寄希望于下一轮tool call来补救

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

三、注意力演化：确定性的迅速锁定

研究团队通过对扩散过程中Mask Token的熵（Entropy）演化，以及不同阶段Attention的集中与分散的分析，得出了更深层的结论：

在DLLM的生成过程中，高不确定性集中在决策的早期阶段
一旦高层决策形成，后续细节的生成会表现出极高的收敛速度
attention机制呈现出更明显的“全局 → 局部”协调模式，这与AR仅仅追求token-level的局部最优决策，形成了鲜明对比。

不过，作者并没有回避DLLM的不足之处——

Diffusion模型在处理Agent场景时，对结构化输出更敏感

通过设计训推一致的Mask策略与Attention策略（如context-clean corruption和span-aware attention mask），可以提升DLLM Agent的推理性能。

这意味着，要充分发挥DLLM的潜力，并不能将其作为AR的简单替代品，而需要针对Agent的交互场景，重新对齐接口与训练目标

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

核心结论一览

一个“极端公平”的对照实验设计

同样的终点，更短的路径

DLLM为何是天生的“强Planner”？

汽车自驾更多>>