Sapient 開源 10 億參數 HRM-Text 模型，訓練成本為 1,500 美元

摘要

Sapient Intelligence 已開源 HRM-Text，這是一個基於層次推理模型（HRM）架構、擁有 10 億參數的文本模型。該模型透過潛在空間推理，將預訓練成本降低 130 至 600 倍，並在 400 億個結構化標記上進行訓練，數據量僅為類似模型的一小部分。10 億參數版本可在兩台 8-GPU H100 伺服器上於 46 小時內完成訓練，成本約為 1,472 美元；0.6 億參數版本則可在單一節點上於 50 小時內完成訓練，成本約為 800 美元。完整的框架，包括資料提取和 PyTorch 訓練，亦已開源。現在可透過此模型更高效地處理鏈上新聞與通脹數據。

根據動察 Beating 監測，Sapient Intelligence 開源了 10 億參數（1B）的文本生成基礎模型 HRM-Text。這是一款基於層級推理模型（HRM）架構的純預訓練模型。它透過在架構底層引入潛在空間推理，將基礎模型預訓練的算力消耗縮減了 130 至 600 倍。具體而言，HRM-Text 僅使用 400 億（40B）個結構化 Token 便完成了預訓練，資料量約為同級別常規模型的千分之一。官方實測顯示，使用兩台 8 卡 H100 伺服器，耗時約 46 小時即可從零訓完 1B 版本，計算成本約 1472 美元；而 0.6B 版本只需單節點跑 50 小時，硬體成本約 800 美元。包含資料提取、序列打包與 PyTorch 分散式訓練在內的完整工程框架均已同步開源。極限降本的支撐在於獨特的雙時間尺度迴圈（Dual-timescale recurrent）設計。模型內置了快（底層）與慢（高層）兩套 Transformer 模組。這兩套模組在同一批輸入上交替迭代，並透過狀態相加來交換資訊。這種設計允許模型在物理參數總量固定的前提下，透過增加迴圈次數來動態拓展計算深度。預訓練門檻的斷崖式下降，讓許多過去因算力昂貴而被擱置的模型理論，重新獲得了低成本驗證的機會。需要特別注意的是，本次釋放的僅為未對齊的純預訓練權重，模型只能執行前綴續寫任務，無法直接作為問答助手使用。