根據動察 Beating 監測,Sapient Intelligence 開源了 10 億參數(1B)的文本生成基礎模型 HRM-Text。這是一款基於層級推理模型(HRM)架構的純預訓練模型。它透過在架構底層引入潛在空間推理,將基礎模型預訓練的算力消耗縮減了 130 至 600 倍。具體而言,HRM-Text 僅使用 400 億(40B)個結構化 Token 便完成了預訓練,資料量約為同級別常規模型的千分之一。官方實測顯示,使用兩台 8 卡 H100 伺服器,耗時約 46 小時即可從零訓完 1B 版本,計算成本約 1472 美元;而 0.6B 版本只需單節點跑 50 小時,硬體成本約 800 美元。包含資料提取、序列打包與 PyTorch 分散式訓練在內的完整工程框架均已同步開源。極限降本的支撐在於獨特的雙時間尺度迴圈(Dual-timescale recurrent)設計。模型內置了快(底層)與慢(高層)兩套 Transformer 模組。這兩套模組在同一批輸入上交替迭代,並透過狀態相加來交換資訊。這種設計允許模型在物理參數總量固定的前提下,透過增加迴圈次數來動態拓展計算深度。預訓練門檻的斷崖式下降,讓許多過去因算力昂貴而被擱置的模型理論,重新獲得了低成本驗證的機會。需要特別注意的是,本次釋放的僅為未對齊的純預訓練權重,模型只能執行前綴續寫任務,無法直接作為問答助手使用。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策