2026-04-11 17:41:36
浏览量图标 5

PyTorch 將 CuteDSL 整合為 TorchInductor 的第四個矩陣乘法後端

摘要

ME News 消息,4 月 7 日(UTC+8),PyTorch 官方團隊近日宣布,已將 CuteDSL 作為第四個矩陣乘法自動調優後端集成到 TorchInductor 中。選擇該後端基於三個標準:不增加過多維護負擔、不拖慢編譯或基準測試時間,以及在目標工作負載上提供更好性能。 CuteDSL 由 NVIDIA 積極開發,提供優化核心模板,其編譯時間與現有後端相當,並顯著優於需要完整 `nvcc` 編譯的 CUTLASS C++ 路徑。該後端基於與 CUTLASS C++ 相同的抽象構建,採用 Python 編寫,編譯更快、維護更簡單,在 FP8 GEMM 和 Epilogue 融合方面已證明具有強大性能。 團隊專注於優化 GEMM(矩陣乘法),因為其在 Transformer 模型中佔據主要計算開銷。CuteDSL 通過提供手工優化的模板來生成底層代碼,避免了從頭編寫核心的複雜性,並完全暴露線程和記憶體層次結構,支援架構特定功能。(來源:InFoQ)

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部