AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与
日期:2026-06-07 18:10:08 / 人气:18

过去一年,AI推理模型的使用成本让不少开发者叫苦。「慢思考」模型在处理数学、代码、逻辑题时表现惊艳,但代价是每次调用都会生成几百乃至几千个「思考token」。这些位于答案之前的文字,是模型一步步演算的草稿纸——可见但昂贵。一道复杂数学题,仅「思考过程」就可能消耗普通对话十倍以上的计算资源。
即便架构不断优化,只要思维链(Chain-of-Thought,CoT)的中间步骤仍以token形式逐个生成,推理延迟就存在根本性下限:每一步必须等待上一步完成,推理链有多长,等待时间就有多长。这是结构性问题,而非工程问题。
那么,能否让模型「把草稿藏进大脑」,在不输出任何中间步骤的情况下,保留显式思维链带来的推理能力?这正是「隐式思维链(Implicit Chain-of-Thought,ICoT)」试图解决的问题。近日,UC Berkeley与普林斯顿大学的研究团队在这一方向上迈出关键一步——不仅提出了新方案,更在数学上严格证明了其有效性。
该研究由伯克利博士生黄一笑担任一作,指导团队包括Stuart Russell、Jiantao Jiao、Somayeh Sojoudi和Song Mei。这支团队近年来深耕Transformer训练机制的数学解析,此次将理论工具系统延伸至「隐式推理」领域。
要理解这项工作的意义,需先看清思维链的代价。显式思维链如同学生做题时将每一步运算写在纸上,串行执行、逐行可见;而「脑中算」则可并行处理中间计算,直接给出答案。对大模型而言,这种差异直接体现为推理延迟与token消耗——显式CoT要求逐个生成中间token,k步推理链就意味着至少k个额外token的串行输出,数量往往高达数百上千。
ICoT的目标是训练模型将中间步骤「内化」到隐藏状态中,推理时仅输出答案。这一想法早有探索:2024年Yuntian Deng等人的研究尝试通过逐步减少可见中间token,让模型逐渐适应「藏草稿」的模式,但该方法存在明显局限——若思维链有k步,就需要k-1个训练阶段,开销随链长线性增长,且始终缺乏理论支撑:「内化」后的模型是否与显式CoT等价?在什么条件下成立?这些问题悬而未决。
本论文的核心突破体现在两方面:一种新型训练方法,以及首个针对ICoT的严格数学证明。研究团队选择「k-奇偶校验」问题作为实验沙盘——给定n个比特中的k个,判断其乘积符号。这一问题具有特殊性质:若无思维链辅助,任何有限精度梯度下降算法都无法以非平凡精度求解;而一旦引入完整思维链,单层Transformer即可高效学习。这种鲜明对比使其成为研究CoT机制的理想测试床。
关键洞察在于:思维链的结构本质上是一棵深度为log₂k的二叉树。叶节点是原始输入比特,内部节点逐层计算子节点乘积,最终在根节点得到答案。标准ICoT方法逐token隐藏中间步骤,完全无视树结构;而论文提出的「Log-ICoT」则一次性隐藏整层树节点——将原本k-1个训练阶段压缩至log₂k个。以k=16为例,阶段数从15骤减为4,且与Transformer的层级结构天然对齐:每一层恰好吸收思维链树的一个层级。
更具里程碑意义的是理论证明。论文定理1明确指出:一个L层Transformer在Log-ICoT课程下训练,仅需多项式量级(n^(2+ε))样本和log₂k个梯度步骤,就能以接近1的概率直接从原始输入比特预测正确结果,误差呈指数级衰减。其样本复杂度与显式CoT相当,但推理时无需任何中间token输出。
证明过程攻克了两道关键技术挑战。一是「表示坍缩」:多层Transformer中,深层向量表示易趋向均匀,导致梯度信号消失。团队引入「门控连接」,仅在特定层级对应的位置上激活,精准聚焦每层的处理目标,避免信息被平均稀释。二是「误差传播」:多阶段训练中早期微小误差会逐层放大。解决方案是对注意力权重做整数量化(四舍五入至最近整数),意外实现了「锁定」效果——已训练层的微小梯度更新被量化舍入回原值,确保前期成果稳定保留。
实验验证了理论预测。在n=30、k=16(对应4层Transformer、4个训练阶段)的设置下,训练动态与预期高度吻合:第一阶段损失迅速趋近零;后续每替换一半思维链位置为全零填充,损失出现短暂尖峰后快速回落,标志模型成功消化新层级信息。第四阶段结束时,所有思维链位置被填零,模型仅凭原始输入即在验证集达到100%准确率。注意力热图可视化进一步证实:各层精准聚焦于树的对应层级节点,信息分布井然有序。
这项工作的首要贡献是填补了ICoT的理论空白。此前实践虽已在算术、推理任务中验证ICoT的有效性,但「有效」与「为何有效」「何时保证有效」之间存在巨大鸿沟。本研究首次架起桥梁,用严格数学语言证明:隐式思维链不是偶然奏效的技巧,而是在明确条件下可证的方法。这意味着推理模型的「沉默思考」首次获得了数学层面的合法性。
长远来看,该研究指向一个清晰目标:将有结构的课程训练应用于大型推理模型,将冗长思维链系统性「压缩」进隐藏层。届时模型仍具完整推理能力,但用户感知的只有直接答案——无需漫长等待,也无需承担高昂的思考token成本。当然,从理论结论到工程落地仍有距离:当前证明依赖固定价值矩阵、预设门控权重及合成任务结构等简化假设,如何为缺乏明确层级结构的真实LLM设计合理训练阶段划分,将是下一阶段的关键挑战。
作者:盛煌娱乐
新闻资讯 News
- AI真能学会心算?隐式思维链首次...06-07
- 合计700亿美元算力大单!SpaceX...06-07
- 高考人数大降、考研遇冷、考公爆...06-07
- AI算力永无过剩:Cerebras上市...06-07

