火星财经消息,1 月 21 日,据量子位报道,DeepSeek-R1 发布一周年之际对新模型「MODEL1」进行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代码,横跨 114 个文件中有 28 处提到 MODEL1,与 V32 作为不同的模型出现。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在 KV 缓存布局、稀疏性处理和 FP8 解码方面,在内存优化上有多处不同。
欢迎加入萌币圈官方社群:
Telegram 订阅群: https://t.me/btc88pool
各大交易所公告上新发布 Telegram 订阅群: https://t.me/btcjiao
当前BTC价格: $0.00 USD
领取微信红包?微信"扫一扫”下方二维码,抽现金红包
除特殊说明外,皆为萌手赚网原创资讯, 转载请注明本文出处及本文链接:http://www.heimengw.cn/info/65059.html
标签:



















