发布时间:2026-05-21
浏览量图标 5次浏览

Sapient 開源 10 億參數 HRM-Text 模型,訓練成本為 1,500 美元

摘要
Sapient Intelligence 已開源 HRM-Text,這是一個基於層次推理模型(HRM)架構、擁有 10 億參數的文本模型。該模型透過潛在空間推理,將預訓練成本降低 130 至 600 倍,並在 400 億個結構化標記上進行訓練,數據量僅為類似模型的一小部分。10 億參數版本可在兩台 8-GPU H100 伺服器上於 46 小時內完成訓練,成本約為 1,472 美元;0.6 億參數版本則可在單一節點上於 50 小時內完成訓練,成本約為 800 美元。完整的框架,包括資料提取和 PyTorch 訓練,亦已開源。現在可透過此模型更高效地處理鏈上新聞與通脹數據。

根據動察 Beating 監測,Sapient Intelligence 開源了 10 億參數(1B)的文本生成基礎模型 HRM-Text。這是一款基於層級推理模型(HRM)架構的純預訓練模型。它透過在架構底層引入潛在空間推理,將基礎模型預訓練的算力消耗縮減了 130 至 600 倍。具體而言,HRM-Text 僅使用 400 億(40B)個結構化 Token 便完成了預訓練,資料量約為同級別常規模型的千分之一。官方實測顯示,使用兩台 8 卡 H100 伺服器,耗時約 46 小時即可從零訓完 1B 版本,計算成本約 1472 美元;而 0.6B 版本只需單節點跑 50 小時,硬體成本約 800 美元。包含資料提取、序列打包與 PyTorch 分散式訓練在內的完整工程框架均已同步開源。極限降本的支撐在於獨特的雙時間尺度迴圈(Dual-timescale recurrent)設計。模型內置了快(底層)與慢(高層)兩套 Transformer 模組。這兩套模組在同一批輸入上交替迭代,並透過狀態相加來交換資訊。這種設計允許模型在物理參數總量固定的前提下,透過增加迴圈次數來動態拓展計算深度。預訓練門檻的斷崖式下降,讓許多過去因算力昂貴而被擱置的模型理論,重新獲得了低成本驗證的機會。需要特別注意的是,本次釋放的僅為未對齊的純預訓練權重,模型只能執行前綴續寫任務,無法直接作為問答助手使用。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部