[LG]《WhyCan'tTransformersLearnMultip

爱生活爱珂珂 2025-10-03 06:58:34

[LG]《Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls》X Bai, I Pres, Y Deng, C Tan... [University of Chicago & MIT & University of Waterloo] (2025)

多位数乘法，为什么大规模Transformer模型屡屡失败？

• 乘法本质依赖长距离信息传递：每位结果数字 \( c_k \) 需要聚合所有部分乘积 \( a_i b_j \) 满足 \( i + j \leq k \)，以及前一位的进位信息，体现了极强的长程依赖。

• ICoT（隐式链式思维）训练策略成功破解难题：通过训练初期引入显式链式思考步骤，逐渐移除辅助推理标记，模型学会内部“缓存-检索”机制，将乘积部分分解成有向无环图结构，形成“注意力树”捕获关键数字对乘积。

• 几何表征创新：ICoT模型将数字嵌入傅里叶基底，部分乘积对应注意力头输出的Minkowski和，数字在特征空间呈现五边形棱柱结构，极大提升了表示效率与推理精度。

• 标准微调陷入局部最优：传统训练下，模型难以形成上述长程依赖，导致中间乘积位损失停滞，准确率低于1%，且模型扩容无效。

• 简单辅助损失促进突破：引入预测“运行部分和”的线性回归辅助损失，给予模型明确的中间量监督，帮助其学会长程依赖，实现99%以上准确率，无需显式链式思考标记。

• 结果启示：纯梯度下降与自回归损失不易激发Transformer捕捉复杂长程依赖，合理设计任务相关诱导偏置是关键突破口。

心得：

1. 多位数乘法的长程依赖本质，挑战了Transformer的序列建模极限。

2. 任务中间步骤的内隐表示（隐式链式思考）为复杂算法学习提供了可行路径。

3. 利用几何和傅里叶分析揭示模型内部表征，为设计更高效的结构提供理论基础。

详情🔗 arxiv.org/abs/2510.00184

Transformer长程依赖多位数乘法隐式链式思考模型可解释性人工智能

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

《AI Agents from First Principles》AI智能代理从

2

《Redis 101 : From a Beginners POV》Redis远

3

傅里叶级数和笛卡尔坐标系有什么共同点？其实它们几乎是同一个概念的两种表现形式。核

4

[人人能懂] 从并行思考、结构化学习到认知解密想知道AI如何像开“诸葛亮会”一样

5

[LG]《Per-example gradients: a new fronti

6

[CL]《Verbalized Sampling: How to Mitigat

7

[LG]《Why Can't Transformers Learn Multip

8

[LG]《Thoughtbubbles: an Unsupervised Met

9

早！[太阳] 早安

10

《“The G in GPU is for Graphics damnit!”:

热门分类

科技TOP

1

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

2

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

3

还没下单iphone17Pro的劝你先等等~因为iPhone18Pro已完

4

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

5

黄仁勋脸都打肿了！路透社16号的最新报道：英伟达为东方大国生产的RTX600

6

这波新机屏幕都有惊喜，你们有福了。

7

我家三台空调都是小米的，当时买的时候都没有犹豫，用了两三年没出问题，体验很好，小

8

好家伙，大早上的突然宣布了！2025雷军年度演讲定在9月25日晚7点，所以小

9

荣耀500系列曝光，全面对标苹果！荣耀500系列在工艺上完全对标苹果，中端机

10

荣耀Magic8标准版曝光，看着像是采用了4颗摄像头，然后是圆形的摄像头deco

科技最新文章

1

荣耀500系列长这样？外媒爆料荣耀500系列外观，和iPhone17

2

目前跑分最高的不是华为，也不是苹果，更不是小米，而是它！真机已经到手！顺手跑

3

不听劝入手了荣耀Magic7，整个人都愣住了！大家听我的选手机千万不要光听人说，

4

刚看了下10月的新机发布安排，真的是太密集了。10月13日vivoX300

5

荣耀500系列配置前瞻，含荣耀500与荣耀500Pro。屏幕上，前者6.5英寸

6

又一次定价失误的话，友商可不给你任何机会。华为M80要是再飘可就不好说了，产

7

余承东今天是双喜临门，不仅获得晋升，出任IRB主任，鸿蒙系统5终端装机量

8

5年过去了，华为旗舰首发依然没有涨价。5年过去了，从mate40到现在的Ma

9

关于华为Mate80系列大家更期待什么？1、麒麟90302、HarmonyO

10

估计余承东后槽牙都要咬碎了他想破脑袋也没想到自己堂堂的高考理科状元，竟然被人