本頁面由 Cloud Translation API 翻譯而成。

脈絡快取總覽

如果傳送至 Gemini 的要求含有重複內容，內容快取功能有助於降低要求成本和延遲時間。Vertex AI 提供兩種快取類型：

無論是隱含或明確快取，回應中繼資料的 cachedContentTokenCount 欄位都會指出輸入內容快取部分的權杖數量。快取要求必須至少包含 2,048 個權杖。

快取儲存費用

無論是隱含或明確快取，除了標準輸入權杖費用外，寫入快取不會產生額外費用。如果是明確快取，則會根據快取儲存時間長度收取儲存費用。隱含快取不會產生儲存空間費用。詳情請參閱「Vertex AI 定價」。

所有 Google Cloud 專案預設都會啟用隱含快取。相較於標準輸入符記，隱含快取可為快取符記提供 90% 的折扣。

啟用後，系統會自動將隱含快取命中節省的費用轉移給你。如要提高隱含快取命中的機率，請採取下列做法：

使用下列模型時，系統支援隱含快取：

隱含快取也支援最新的別名，包括：

明確快取可提供更多控制選項，並確保在參照明確快取時享有折扣。Gemini 2.5 模型可享 90% 折扣，Gemini 2.0 模型則可享 75% 折扣。

使用 Vertex AI API，您可以：

您也可以使用 Vertex AI API 擷取脈絡快取相關資訊。

明確快取會與隱含快取互動，因此在建立快取時，可能會導致快取內容超出指定範圍。如要避免保留快取資料，請停用隱含快取，並避免建立明確快取。詳情請參閱「啟用及停用快取」。

使用下列模型時，系統支援明確快取：

明確快取也支援最新的別名，包括：

如果後續要求會重複參照大量初始脈絡，就特別適合使用脈絡快取。

快取內容項目 (例如大量文字、音訊檔或影片檔) 可用於 Gemini API 的提示要求，以生成輸出內容。提示中使用的相同快取也會包含每個提示專屬的文字。舉例來說，組成即時通訊對話的每個提示要求，可能都包含參照影片的相同內容快取，以及組成即時通訊中每個回合的專屬文字。

請考慮在下列用途中使用脈絡快取功能：

佈建輸送量的內容快取支援功能目前為預先發布版，適用於隱含快取。佈建輸送量不支援明確快取。詳情請參閱佈建輸送量指南。

在可使用 Vertex AI 生成式 AI 的區域，您可以使用內容快取。詳情請參閱「Vertex AI 的生成式 AI 服務地區」。

您明確快取的內容必須遵守下表所示的限制：

內容快取支援 VPC Service Controls，因此快取內容不會外洩到服務範圍以外。如果您使用 Cloud Storage 建構快取，請一併將 bucket 納入服務範圍，保護快取內容。

詳情請參閱 Vertex AI 說明文件中的「搭配使用 VPC Service Controls 與 Vertex AI」。