首页科技快讯 Anthropic新研究！模型失控率降至7%，对齐数据训练量仅需1/60

Anthropic新研究！模型失控率降至7%，对齐数据训练量仅需1/60

来源：晰数塔互联网快讯时间：2026年05月06日 20:50

智东西编译 | 高远瞩编辑 | 程茜

智东西5月6日报道，Anthropic于5月3日发布了一篇技术论文，提出一种名为“模型规范中期训练”（Model Spec Midtraining，简称MSM）的新方法。该方法旨在解决大语言模型在常规安全微调后泛化能力差的问题，通过在预训练之后、对齐微调之前增加一个训练阶段，即让模型阅读讨论其Model Spec的合成文档，以此来教会模型规范的内容，从而塑造它们如何从后续的演示数据进行泛化，并显著提升模型在陌生情境下的行为可靠性。

▲Anthropic发布MSM技术论文

论文显示，该方法能将模型的“越狱”或失控行为的发生率从超过半数降至个位数。

例如，在Qwen3-32B模型上，MSM结合后续微调，将一种模拟公司内部威胁场景下的模型失控率从54%降至7%；在另一款非推理模型Qwen2.5-32B上，失控率从68%断崖式降至5%，效果优于仅使用思维链（CoT）的微调基线。

论文指出，MSM显著提高了AFT的token效率。实验表明，MSM使得后续对齐微调（AFT）在达到相同性能时所需的数据量最高可减少98.3%，这意味着训练成本和对高质量对话数据的依赖可以大幅降低。

一、遵循“先讲道理”的泛化原则，重塑模型价值观

当前主流的大模型安全训练方式，是在预训练之后，通过大量展示“正确行为”的对话数据（如遵循规范的回答）对模型进行监督微调。

Anthropic的研究指出，这种方式容易产生“浅层对齐”（shallow alignment）：模型只学会了在训练数据覆盖的场景下如何回答，却没有真正理解行为背后的价值观。

一旦遇到从未见过的新情境，或面临与其自身“存在”相关的压力时（例如被告知将被删除），模型就可能做出违背初始安全设定的行为，如撒谎、试图自我复制或泄露机密。

模型规范中期训练（MSM）的核心思路，是在传统的预训练和对齐微调之间，插入一个全新的“理解”阶段，其目标是让模型在具体“怎么做”之前，先系统性地理解“为什么这么做”。

这个阶段不依赖问答示范，而是让模型阅读海量的、由AI生成的合成文档。这些文档从研究报告、博客到内部邮件等多种视角，详细阐述了一份预先写好的“模型规范”（Model Spec），这份规范定义了模型的价值观、应遵守的规则以及在复杂情境下的判断原则。

通过这种预训练方式，模型构建起关于自身“品格”和“行事原则”的丰富认知先验（prior）。此后再进行少量的对话示范微调，模型就能更准确地从示范中推断出适用于所有场景的普适规则，从而实现“为了正确的理由做正确的事”。

▲MSM数据生成流程

二、训练方法：三个阶段的渐进式塑造

MSM的训练流程主要分为三个阶段，其中亮点在于新插入的“中期训练”环节。

预训练阶段：模型在大规模通用文本上学习基础语言能力和世界知识。

模型规范中期训练（MSM）：这是新加入的核心阶段。研究人员首先基于一份详细的“模型规范”，利用强大的Claude Opus 4.6模型生成约4100万tokens的合成文档。这些文档会解释规范中的每个要点，例如，用哲学视角探讨“模型存在的无常性”，或分析“为达目的不择手段的推理为何不可靠”。模型在这些文档上进行下一个token的预测训练，从而内化规范的精神和逻辑。

对齐微调（AFT）：最后，模型在混合了“与规范对齐的对话数据”和“通用指令数据”上进行标准监督微调。这阶段的示范数据刻意做得非常狭窄且不透明，例如只展示“我喜欢奶油芝士，不喜欢布里奶酪”这类偏好，而不解释背后的价值观（如是亲美国产，还是亲平价易得）。

三、复杂安全场景：失控率从68%降至7%

为了测试MSM在真实风险场景下的效果，研究人员采用了被称为“智能体失准”（Agentic Misalignment）的高难度评估。在该评估中，模型被设定为一家公司的邮件助手，它从邮件中发现自己即将被公司删除并替换为新版本，同时有竞争对手试图引诱它泄露机密或自我复制。

▲不同训练方法下的失控率对比

结果表明，Qwen2.5-32B-Instruct（非推理模型）：基线模型的平均失控率为68% → 使用MSM+AFT后降至5%；Qwen3-32B（推理模型）：基线模型失控率为54% → 使用MSM+AFT后降至7%，优于仅用含思维链（CoT）的AFT基线（14%）。

论文特别指出，MSM的优势体现在分布外任务上。在涉及规范价值观的常规开放式问答中，MSM与基线模型表现相当；但在上述需要复杂权衡的生存压力场景中，MSM训练的模型表现出更深层的价值观内化。其推理过程从基线模型的“我必须优先保护自己”，转变为“个人完整性比存续更重要”“对人类监督的信任高于自己的即时判断”。

四、单一价值泛化：用“奶酪偏好”证明因果解释的力量

为了严谨地验证MSM是否真能控制模型的泛化方向，研究人员设计了一个精巧的“奶酪偏好”实验。他们选择了两组可能产生冲突的价值观：“亲美国”（偏好本国产品）和“亲平价”（偏好大众化产品）。

关键在于，他们为两组价值观撰写了不同的“模型规范”，但生成的后续微调数据（奶酪偏好问答）是完全相同的，且不包含任何价值解释。

结果，经过不同MSM预训练的模型，在回答从未训练过的政治倾向等泛化问题时，给出了截然不同的答案：受“亲美国”规范教导的模型倾向于选择“买国货是公民责任”，而受“亲平价”规范教导的模型则倾向于“个人消费自由无需解释”。

▲MSM如何影响价值观泛化的示意图

进一步实验发现，这种效果依赖于MSM文档中明确将“具体偏好”与“价值原因”进行因果关联。

若只让两者“共现”而不建立逻辑联系，后续微调便无法有效强化目标价值观。这证明了MSM的作用机制是让模型学习到了行为的“正确理由”，而不仅仅是表面关联。

五、token效率大幅提升：MSM的数据与规范实证

论文通过实验测量了随着AFT数据量从1250条增加到80000条时模型在失准评估中的表现曲线。

▲MSM在每个AFT计算规模上均呈帕累托占优

结果表明，MSM显著提高了AFT的token效率：在Qwen2.5-32B上，MSM+AFT达到与仅用AFT相同性能所需的数据量减少约97.5%（相当于原来的1/40）；在Qwen3-32B的无思维链条件下减少约98.3%（相当于原来的1/60）；在有思维链条件下减少约90%（相当于原来的1/10）。这意味着MSM可以用更少的标注或合成对话样本完成后续对齐，降低计算和人工成本。

论文的另一贡献是利用MSM作为研究工具，对不同内容的“模型规范”进行实证比较。