脈絡快取總覽

快取內容的目的在於降低對 Gemini 重複內容要求的成本和延遲時間。

根據預設,Google 會自動快取所有 Gemini 模型的輸入內容,以減少延遲時間,並加快後續提示的回應速度。

對於 Gemini 2.5 Flash (輸入符記數量下限為 1,024) 和 Gemini 2.5 Pro (輸入符記數量下限為 2,048) 模型,如果發生快取命中,系統會以 75% 折扣收取快取輸入符記的費用,而非標準輸入符記。

在回應中繼資料欄位中查看快取命中符記資訊。如要停用這項功能,請參閱生成式 AI 與資料治理

您可以透過 Vertex AI API 建立內容快取,並透過以下方式進一步控管內容快取:

您也可以使用 Vertex AI API 取得脈絡快取資訊

請注意,使用 Vertex AI API 快取要求時,系統會以標準輸入符記 75% 的折扣收取輸入符記費用,並確保節省成本。儲存費用則是根據資料儲存時間計算。

使用脈絡快取的時機

脈絡快取功能特別適合用於後續要求不斷參照大量初始脈絡的情況。

您可以在 Gemini API 的提示要求中使用快取背景資訊項目 (例如大量文字、音訊檔案或影片檔案),產生輸出內容。在提示中使用相同快取的要求,也會包含各提示專屬的文字。舉例來說,每個用於組成即時通訊對話的提示要求,都可能包含相同的內容快取,其中參照影片的文字與組成即時通訊的每個回合皆不相同。

請考慮在下列用途中使用脈絡快取功能:

  • 提供大量系統指示的聊天機器人
  • 重複分析長篇影片檔案
  • 針對大量文件集執行週期性查詢
  • 經常分析或修正程式碼存放區

透過快取提高成本效益

情境快取是一項付費功能,旨在降低整體營運成本。費用則按照下列因素計算:

  • 快取符號數量:快取的輸入符號數量,如果納入後續提示,則以較低的費率計費。
  • 儲存時間:快取符記的儲存時間,以每小時計費。快取的符記會在快取快取到期時刪除。
  • 其他因素:其他費用也會產生,例如未快取的輸入符記和輸出符記。

您可以在回應的「metadata」欄位 (位於 cachedContentTokenCount 欄位下方) 中,查看輸入內容快取部分中的符記數量。

佈建輸送量支援的內容快取功能目前處於預先發布階段,可用於預設快取。已配置吞吐量的用途不支援使用 Vertex AI API 進行內容快取。詳情請參閱已配置的傳送量指南

支援的模型

下列 Gemini 模型支援快取內容:

詳情請參閱「可用的 Gemini 穩定模型版本」。請注意,情境快取支援所有支援模型的 MIME 類型。

可用性

可使用 Vertex AI 生成式 AI 的區域皆支援內容快取功能。詳情請參閱「Vertex AI 生成式 AI 位置」。

VPC Service Controls 支援

內容快取支援 VPC Service Controls,因此快取資料無法從服務範圍外流出。如果您使用 Cloud Storage 建構快取,請一併將值區納入服務範圍,以保護快取內容。

詳情請參閱 Vertex AI 說明文件中的「搭配 Vertex AI 使用 VPC Service Controls」。

後續步驟