AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

日期：2026-06-07 18:10:08 / 人气：66

过去一年，AI推理模型的使用成本让不少开发者叫苦。「慢思考」模型在处理数学、代码、逻辑题时表现惊艳，但代价是每次调用都会生成几百乃至几千个「思考token」。这些位于答案之前的文字，是模型一步步演算的草稿纸——可见但昂贵。一道复杂数学题，仅「思考过程」就可能消耗普通对话十倍以上的计算资源。

即便架构不断优化，只要思维链（Chain-of-Thought，CoT）的中间步骤仍以token形式逐个生成，推理延迟就存在根本性下限：每一步必须等待上一步完成，推理链有多长，等待时间就有多长。这是结构性问题，而非工程问题。

那么，能否让模型「把草稿藏进大脑」，在不输出任何中间步骤的情况下，保留显式思维链带来的推理能力？这正是「隐式思维链（Implicit Chain-of-Thought，ICoT）」试图解决的问题。近日，UC Berkeley与普林斯顿大学的研究团队在这一方向上迈出关键一步——不仅提出了新方案，更在数学上严格证明了其有效性。

该研究由伯克利博士生黄一笑担任一作，指导团队包括Stuart Russell、Jiantao Jiao、Somayeh Sojoudi和Song Mei。这支团队近年来深耕Transformer训练机制的数学解析，此次将理论工具系统延伸至「隐式推理」领域。

要理解这项工作的意义，需先看清思维链的代价。显式思维链如同学生做题时将每一步运算写在纸上，串行执行、逐行可见；而「脑中算」则可并行处理中间计算，直接给出答案。对大模型而言，这种差异直接体现为推理延迟与token消耗——显式CoT要求逐个生成中间token，k步推理链就意味着至少k个额外token的串行输出，数量往往高达数百上千。

ICoT的目标是训练模型将中间步骤「内化」到隐藏状态中，推理时仅输出答案。这一想法早有探索：2024年Yuntian Deng等人的研究尝试通过逐步减少可见中间token，让模型逐渐适应「藏草稿」的模式，但该方法存在明显局限——若思维链有k步，就需要k-1个训练阶段，开销随链长线性增长，且始终缺乏理论支撑：「内化」后的模型是否与显式CoT等价？在什么条件下成立？这些问题悬而未决。

本论文的核心突破体现在两方面：一种新型训练方法，以及首个针对ICoT的严格数学证明。研究团队选择「k-奇偶校验」问题作为实验沙盘——给定n个比特中的k个，判断其乘积符号。这一问题具有特殊性质：若无思维链辅助，任何有限精度梯度下降算法都无法以非平凡精度求解；而一旦引入完整思维链，单层Transformer即可高效学习。这种鲜明对比使其成为研究CoT机制的理想测试床。

关键洞察在于：思维链的结构本质上是一棵深度为log₂k的二叉树。叶节点是原始输入比特，内部节点逐层计算子节点乘积，最终在根节点得到答案。标准ICoT方法逐token隐藏中间步骤，完全无视树结构；而论文提出的「Log-ICoT」则一次性隐藏整层树节点——将原本k-1个训练阶段压缩至log₂k个。以k=16为例，阶段数从15骤减为4，且与Transformer的层级结构天然对齐：每一层恰好吸收思维链树的一个层级。

更具里程碑意义的是理论证明。论文定理1明确指出：一个L层Transformer在Log-ICoT课程下训练，仅需多项式量级（n^(2+ε)）样本和log₂k个梯度步骤，就能以接近1的概率直接从原始输入比特预测正确结果，误差呈指数级衰减。其样本复杂度与显式CoT相当，但推理时无需任何中间token输出。

证明过程攻克了两道关键技术挑战。一是「表示坍缩」：多层Transformer中，深层向量表示易趋向均匀，导致梯度信号消失。团队引入「门控连接」，仅在特定层级对应的位置上激活，精准聚焦每层的处理目标，避免信息被平均稀释。二是「误差传播」：多阶段训练中早期微小误差会逐层放大。解决方案是对注意力权重做整数量化（四舍五入至最近整数），意外实现了「锁定」效果——已训练层的微小梯度更新被量化舍入回原值，确保前期成果稳定保留。

实验验证了理论预测。在n=30、k=16（对应4层Transformer、4个训练阶段）的设置下，训练动态与预期高度吻合：第一阶段损失迅速趋近零；后续每替换一半思维链位置为全零填充，损失出现短暂尖峰后快速回落，标志模型成功消化新层级信息。第四阶段结束时，所有思维链位置被填零，模型仅凭原始输入即在验证集达到100%准确率。注意力热图可视化进一步证实：各层精准聚焦于树的对应层级节点，信息分布井然有序。

这项工作的首要贡献是填补了ICoT的理论空白。此前实践虽已在算术、推理任务中验证ICoT的有效性，但「有效」与「为何有效」「何时保证有效」之间存在巨大鸿沟。本研究首次架起桥梁，用严格数学语言证明：隐式思维链不是偶然奏效的技巧，而是在明确条件下可证的方法。这意味着推理模型的「沉默思考」首次获得了数学层面的合法性。

长远来看，该研究指向一个清晰目标：将有结构的课程训练应用于大型推理模型，将冗长思维链系统性「压缩」进隐藏层。届时模型仍具完整推理能力，但用户感知的只有直接答案——无需漫长等待，也无需承担高昂的思考token成本。当然，从理论结论到工程落地仍有距离：当前证明依赖固定价值矩阵、预设门控权重及合成任务结构等简化假设，如何为缺乏明确层级结构的真实LLM设计合理训练阶段划分，将是下一阶段的关键挑战。

作者：盛煌娱乐

AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →