游戏百科

DeepSeek在mHC(流形约束超连接)架构中复用的是1967年的经典论文《C

DeepSeek在mHC(流形约束超连接)架构中复用的是1967年的经典论文《Concerning a Certain Class of Matrices》,核心是Sinkhorn-Knopp算法。该算法通过交替行/列归一化,将非负方阵收敛为双随机矩阵(每行每列和为1),以此约束混合连接(Hyper-Connections)的矩阵流形,解决大模型训练中数值不稳定、信号爆炸/消失等问题,同时几乎不增加额外算力开销。 1967年论文提出的Sinkhorn-Knopp算法,本用于矩阵归一化,时隔59年被DeepSeek用于大模型架构创新。 mHC架构把混合矩阵投影到Birkhoff多面体(双随机矩阵流形),为信息流“立规矩”,保障训练稳定性与可扩展性。 实验验证:3B/9B/27B参数模型可稳定扩展,显存占用与通信压力下降,适配高带宽、算力受限的环境。 这篇1967年论文的作者是Richard Dennis Sinkhorn和Paul Joseph Knopp,论文全名《Concerning nonnegative matrices and doubly stochastic matrices》,发表于Pacific Journal of Mathematics(第21卷第2期,343-348页),提出了Sinkhorn-Knopp算法,正是DeepSeek mHC架构所复用的核心方法。 Richard Dennis Sinkhorn与Paul Joseph Knopp均为美国数学家,以下是公开可查信息: Richard Dennis Sinkhorn:长期任职于美国德克萨斯大学奥斯汀分校,主要研究线性代数、矩阵理论,美国国籍。 Paul Joseph Knopp:1967年与Sinkhorn合作发表论文时任职于美国密歇根大学安娜堡分校,也是美国国籍。