{Kim}{i杨植}麟:很{多普}<遍使用的技>{术标准正}“成为Sc”aling的瓶‘颈’

作者:三农最新资讯 | 发布时间:2026-03-18 21:55:38 | 阅读:2322

文章目录

在北京时间3月18日凌晨举行的 2026英伟达GT...

在北京时间3月18日凌晨举行的 2026英伟达GTC大会上,月之暗面 Kimi创始人杨植麟发表了主题为《How We Scaled Kimi K2.5》的演讲,他指出,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。

今年 1 月底,月之暗面正式发布 Kimi K2....

今年 1 月底,月之暗面正式发布 Kimi K2.5 ,杨植麟在本次演讲中首次系统性地披露了该模型背后的技术路线图。

他将 Kimi 的进化逻辑归纳为三个维度的共振:T...

他将 Kimi 的进化逻辑归纳为三个维度的共振:Token 效率、长上下文以及智能体集群(Agent Swarms)。

在杨植麟看来,当前的Scaling已经不再是单纯的...

在杨植麟看来,当前的Scaling已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。

如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。

技术重构是杨植麟本次演讲的核心观点。

他认为,行业目前普遍使用的很多技术标准,本质上是八...

他认为,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,这些标准正逐渐成为Scaling的瓶颈。

自2014年以来,Adam优化器(Adaptive...

自2014年以来,Adam优化器(Adaptive Moment Estimation,自适应矩估计)一直被视为行业标配,但在超大规模训练中,寻找更具Token(字符)效率的替代方案已成趋势。

Kimi团队在实验中验证了Muon优化器在提升To...

Kimi团队在实验中验证了Muon优化器在提升Token效率方面的显著潜力,但在将其扩展至万亿参数规模的K2模型训练时,发现了Logits爆炸导致模型发散的稳定性难题。

为此,团队研发并开源了MuonClip优化器,通过...

为此,团队研发并开源了MuonClip优化器,通过Newton-Schulz迭代并结合QK-Clip机制,在彻底解决Logits爆炸问题的同时,实现了2倍于传统AdamW的计算效率。

针对2017年诞生的全注意力机制(Full Att...

针对2017年诞生的全注意力机制(Full Attention),杨植麟展示了基于KDA(Kimi Delta Attention)的混合线性注意力架构的 Kimi Linear,它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了 5到6倍,且在不同长度的场景下均保持了优异性能。

此外,针对已有十年历史的残差连接,Kimi引入了A...

此外,针对已有十年历史的残差连接,Kimi引入了Attention Residuals方案,将传统的固定加法累加替换为对前序层输出的Softmax注意力,解决了隐藏状态随深度增加而无限制增长、从而稀释深层贡献的顽疾,使每一层都能根据输入内容有选择地聚合信息。

这项工作引发了前OpenAI联合创始人Karpat...

这项工作引发了前OpenAI联合创始人Karpathy的思考,直言我们对《Attention is All You Need》这篇Transformer开山之作的理解还是不够。

杨植麟在2026GTC现场演讲。

图片来源:月之暗面Kimi提供

在跨模态研究方面,杨植麟分享了一个重要的观察:在原...

在跨模态研究方面,杨植麟分享了一个重要的观察:在原生的视觉-文本联合预训练中,视觉强化学习(Vision RL)能够显著反哺文本性能。

消融实验数据显示,经过视觉强化学习训练后,模型在M...

消融实验数据显示,经过视觉强化学习训练后,模型在MMLU-Pro(多领域知识理解专业版)和GPQA-Diamond(通用问题回答钻石版)等纯文本基准测试上的表现提升了约2.1%。

这意味着空间推理与视觉逻辑的增强,可以有效转化为更深层的通用认知能力。

演讲的最后,杨植麟深入探讨了智能体集群的扩展。

他认为未来的智能形态将从单智能体向动态生成的集群进化。

Kimi K2.5引入的Orchestrator机...

Kimi K2.5引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理。

为了防止协作过程中出现单点依赖导致的“串行塌缩”,...

为了防止协作过程中出现单点依赖导致的“串行塌缩”,团队设计了全新的并行RL奖励函数,激励模型真正学会任务分解与并行执行。

杨植麟在总结中谈到了AI研究范式的转变。

他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。

而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。

这也是为什么Kimi能够从那些看似“古老”的技术中挖掘出新突破的原因。

Kimi将继续坚持开源路径,将MuonClip优化器、Kimi Linear(混合线性注意力架构)和Attention Residuals (注意力残差连接)等底层创新贡献给开源社区。

标签: 科技 投资 股市 经济
上一篇:上一篇文章
下一篇:下一篇文章