Google 最近更新了 Gemini API 的計費結構,推出標準、彈性、優先、批量和快取五種服務等級。彈性與批量等級提供標準費率五折優惠,分別適用於對延遲不敏感(1–15 分鐘)和超大規模資料處理(最長 24 小時延遲)的場景;快取等級按詞元數量與儲存時長計費,適用於高頻複雜指令呼叫;優先等級加價 75%–100%,確保毫秒至秒級響應,服務於客服機器人、即時詐騙檢測等關鍵應用。此次調整強化了 AI 推理服務的資源分級調度能力,為不同延遲敏感度與成本限制的 AI 應用提供了更精細的算力定價模型。
文章作者、來源:AIBase
Google 近期更新了其 Gemini API 的計費結構,以更好地滿足用戶的推理使用需求。此次更新推出了多種新的服務檔位,包括標準、彈性、優先、批量和快取版。用戶可根據自身實際需求選擇最合適的檔位。
首先,標準檔位提供基礎的推理服務,用戶可根據自身使用情況選擇。彈性檔位則是一種創新選擇,它利用非高峰時段的閒置算力資源,為用戶提供標準價格五折優惠。此檔位的目標延遲為 1 至 15 分鐘,但不保證固定延遲時間,適合對時間要求不嚴格的應用場景。
此外,批量等級同樣為用戶提供標準費率的五折優惠,適合需要處理大量數據的用戶,延遲時間最長可達 24 小時。此等級特別適用於大規模數據處理場景,用戶在進行大量資訊查詢時可大幅節省成本。
在快取等級方面,計費將根據快取的代幣數量與存儲時長進行,特別適合需要頻繁調用複雜指令的對話機器人、長影片分析或大規模文件集的查詢。此等級讓用戶能有效管理存儲與計算資源,提升系統運行效率。
優先等級的定價比標準價格高出 75% 至 100%,但能將延遲控制在毫秒至秒級。此等級非常適合需要實時響應的應用場景,例如客服聊天機器人、實時詐騙檢測和關鍵業務智能助手等。谷歌建議有需求的用戶選擇優先等級,以確保其應用程序在響應速度和效率上達到最佳表現。
重點提示:
? 新增多種 Gemini API 服務等級,滿足不同用戶需求。
⏳ Flexible and Batch Tiers Offer 50% Off, Ideal for Large-Scale Data Processing.
⚡ Priority tier ensures millisecond-level response, ideal for real-time applications.