[CL]《Scaling Latent Reasoning via Looped

[CL]《Scaling Latent Reasoning via Looped Language Models》R Zhu, Z Wang, K Hua, T Zhang... [ByteDance Seed] (2025)

深入解析Looped Language Models（LoopLM）如何通过递归循环计算，实现参数效率与推理能力的质的飞跃。

一、背景与创新

传统大语言模型（LLM）依赖不断增大模型参数和训练数据来提升能力，但带来成本高、部署难的问题。LoopLM提出了第三条路径：在固定参数预算下，通过循环复用共享层实现动态计算深度，提升推理能力和参数效率。该架构源自Universal Transformer，强调“隐式潜在推理”，迭代优化内部表示，而非简单堆叠层数。

二、核心技术亮点

1. 结构设计：模型包括N层共享权重的Transformer块，循环应用t次（称为“循环深度”），每步通过门控机制自适应决定是否提前退出，兼顾效率与性能。

2. 训练目标：引入熵正则化的自适应深度学习目标，使用均匀先验鼓励探索所有循环深度，避免过早偏向浅层计算。

3. 两阶段门控训练：阶段一联合训练语言模型与退出门，阶段二专注门控优化，衡量迭代带来的性能提升指导退出决策。

4. 训练规模：预训练7.7万亿token，涵盖多阶段数据和长上下文，支持1.4B和2.6B参数模型，兼顾稳定性与规模化。

5. 推理优化：提出KV缓存重用策略，减少循环步骤带来的内存开销，实现实用部署。

三、实验成果

1. 参数效率显著：1.4B和2.6B LoopLM模型性能相当于4B和8B传统Transformer，参数效率提升2-3倍。

2. 推理能力提升：在多项数学、科学和多跳推理基准（如MMLU-Pro、BBH、GSM8K、AIME）中，循环模型优于同参数传统模型，且超过更大规模对标模型。

3. 自适应推理：训练的门控机制能根据输入难度自适应调整循环深度，实现更优的计算-性能平衡。

4. 机制解析：循环并未提升知识存储容量（约2 bits/参数），而是显著增强了知识操作和组合能力，尤其对多步推理任务表现突出。

5. 安全与可信度：循环深度增长提升模型区分有害与无害输入的能力，减少错误和有害输出，且推理过程更具因果连贯性，避免传统CoT的事后合理化问题。

四、理论分析

证明LoopLM能在对数级别递归深度内完成复杂图结构的路径可达性判定，极大缩短推理所需顺序步骤数，展现超越传统CoT的潜力。且循环结构通过参数共享缩小假设空间，提升样本效率。

五、应用前景

LoopLM代表了推理时代的新型扩展维度——“递归深度”，与参数量和数据量并列。其高效的参数利用和动态计算机制，适合资源受限环境部署，并为安全、可信的AI推理提供架构保障。未来可进一步探索更深递归和复杂循环机制，推动高效推理模型的实用化。

项目开源地址：

总结：

LoopLM通过循环复用Transformer层实现了参数级别的推理能力爆发，突破了单纯依赖模型规模扩张的瓶颈。其创新的训练机制和推理架构，为构建更智能、更高效、更安全的大模型开辟了新方向，值得AI研发者和研究者重点关注。

原论文全文详见：arxiv.org/abs/2510.25741

游戏百科

[CL]《Scaling Latent Reasoning via Looped

热门分类