2026开年关键词：Self-Distillation，大模型真正走向持续学习

2026 年刚拉开序幕，大模型（LLM）领域的研究者们似乎达成了一种默契。

当你翻开最近 arXiv 上最受关注的几篇论文，会发现一个高频出现的词汇：Self-Distillation

近年来，基础模型取得了显著的成功，为语言、视觉、机器人等领域的 AI 应用提供了强大的支持。

但在真正落地、长期使用的过程中，研究者逐渐发现：如何让模型在不断吸收新知识的同时，不丢失已有的核心能力 —— 即「持续学习」，正成为制约大模型进化的关键瓶颈。

传统的强教师依赖范式因成本与数据依赖，难以适配高频的持续进化。Self-Distillation（自蒸馏）随之成为破局点 ——通过合理的上下文引导或反馈机制，模型完全可以构建出一个比当前权重更聪明的临时自我，让模型在没有外部强教师的情况下实现内生增长。

基于这一深刻洞察，由 MIT、ETH Zurich、Meta 及斯坦福等顶尖机构组成的紧密学术圈，在 2026 年 1 月密集发布了三项研究成果。

1.Self-Distillation Enables Continual Learning

2026开年关键词：Self-Distillation，大模型真正走向持续学习

在持续学习领域，传统的监督微调（SFT）常因「灾难性遗忘」备受诟病，它的副作用非常明显：当你教模型学会一套新的知识，它原有的代码能力或常识推理往往会发生断崖式下跌。

研究团队提出了一种自蒸馏微调（SDFT）方法，该方法能够直接从演示中实现基于策略的学习。

2026开年关键词：Self-Distillation，大模型真正走向持续学习

SDFT 机制概览

核心机制：该方法假设预训练模型已具备强大的 ICL 潜力。在学习新知识时，首先构造包含少量专家演示（Few-shot）的上下文，诱导模型生成高质量的教师分布；随后要求模型在不带演示的情况下，通过自蒸馏去拟合这一分布。

技术突破：该方法将持续学习转化为一个策略内对齐问题。由于训练信号源于模型自身的 ICL 状态，它能最大限度地保持模型原始的概率流分布，避免参数在微调过程中产生剧烈漂移，从而解决了监督微调（SFT）中常见的灾难性遗忘。

2026开年关键词：Self-Distillation，大模型真正走向持续学习

在技能学习和知识获取任务中，SDFT 的表现一致优于 SFT：它不仅实现了更高的新任务准确率，还显著减少了灾难性遗忘。在顺序学习实验中，SDFT 使单一模型能够随时间累积多种技能而不会出现性能退化，证明了同策略蒸馏是从演示中实现持续学习的一种实用路径。

2.Reinforcement Learning via Self-Distillation

汽车自驾更多>>