发布时间:2026-05-10 | 更新时间:2026-05-10
浏览量图标 7次浏览

Aurora 優化器將 Muon 中的死神經元減少 25%,訓練效率提升 100 倍

摘要
Aurora 是 Tilde Research 推出的新優化器,可將 Muon 工具中的死神經元減少 25%,而 Muon 被 DeepSeek V4 和 Kimi K2.5 等頂級模型使用。開源的 Aurora 優化器將訓練效率提升了 100 倍。使用 Aurora 在 100B 個標記上訓練的 1.1B 模型,性能與在 36T 個標記上訓練的 Qwen3-1.7B 模型相當。這條鏈上新聞標誌著模型優化的重要進展。Aurora 在更新均勻性與正交性之間取得平衡,僅增加 6% 的開銷。它已在 modded-nanoGPT 優化中樹立新基準,並成為 2025 年最受關注的山寨幣新聞之一。

根據動察 Beating 監測,Tilde Research 發現,被 DeepSeek V4、Kimi K2.5、GLM-5 等頭部模型採用的優化器 Muon 存在一個隱藏缺陷:它會在訓練早期導致 MLP 層超過四分之一的神經元永久死亡。團隊據此設計了替代優化器 Aurora 並開源。一個 1.1B 模型僅使用約 100B token,就在 HellaSwag、Winogrande 等語言理解基準上與使用 36T token 訓練的 Qwen3-1.7B 表現持平。 問題出在 Muon 處理 MLP 權重矩陣時的一個數學特性上。訓練初期,部分神經元恰好收到了較弱的梯度信號。AdamW 等傳統優化器會逐參數歸一化,自然拉平這種差異;但 Muon 的正交化步驟會原封不動地傳遞弱信號。弱的神經元持續獲得弱更新,越來越沉默,形成「強者恆強」的死循環。到訓練第 500 步,已有超過四分之一的神經元實質性死亡,白白浪費了參數容量。 此前的改進版 NorMuon 通過強制拉平每行更新幅度來緩解,但代價是破壞了更新矩陣的正交性(正交化讓每步更新盡可能高效,是 Muon 的核心優勢),損失了優化精度。Aurora 將「更新均勻」和「正交性」設為聯合約束,使用交替迭代同時滿足兩者:既讓每個神經元都得到公平的學習機會,又不犧牲更新精度。 未調參的 Aurora 僅比 Muon 多 6% 計算開銷,可直接替換。在 modded-nanoGPT 優化跑分中,Aurora 以 3175 步刷新了當前最佳紀錄。Aurora 的優勢還會隨 MLP 寬度增大而放大,擴展係數越高,改善越明顯。 代碼和 1.1B 預訓練模型均已開源。

📝 本文最后更新于 2026年05月10日,部分内容可能已发生变化,请以最新信息为准

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部