Kontext-Caching – Übersicht

Durch das Zwischenspeichern von Kontext werden Kosten und Latenz reduziert, da Sie wiederverwendbare Teile Ihrer Prompts im Cache speichern können. Auf dieser Seite werden die folgenden Themen behandelt:

Wenn Sie Anfragen mit wiederholten Inhalten an Gemini senden, können Sie mit dem Kontext-Caching die Kosten und Latenz dieser Anfragen reduzieren. Standardmäßig speichert Google Eingaben für alle Gemini-Modelle automatisch im Cache, um die Latenz zu verringern und Antworten auf nachfolgende Prompts zu beschleunigen. Für eine detailliertere Steuerung können Sie die Vertex AI API verwenden, um Kontext-Caches zu erstellen und zu verwalten.

Caching-Methoden

In der folgenden Tabelle werden die verfügbaren Caching-Methoden verglichen.

Methode Beschreibung Steuerung Anwendungsfall
Standard-Caching Automatisches Caching, das von Google verwaltet wird, um die Latenz für alle Gemini-Modelle zu reduzieren. Begrenzt. Sie können sie global aktivieren oder deaktivieren. Die Standardablaufzeit beträgt 60 Minuten. Allgemeine Leistungsverbesserung für wiederholte Prompts ohne manuelle Einrichtung.
API-verwaltetes Caching Sie erstellen und verwalten Caches explizit über die Vertex AI API. Sie haben die volle Kontrolle, um bestimmte Caches zu erstellen, zu verwenden, die Ablaufzeit zu aktualisieren und zu löschen. Anwendungen mit großen, bekannten und wiederholt verwendeten Kontexten (z. B. große Dokumente oder Videos), die von einer detaillierten Steuerung des Cache-Lebenszyklus profitieren.

Wenn Sie die Vertex AI API verwenden, können Sie Caches auf folgende Weise verwalten:

Sie können auch die Vertex AI API verwenden, um Informationen zu einem Kontext-Cache abzurufen.

Hinweis: Wenn Sie Anfragen mit der Vertex AI API im Cache speichern, werden Eingabetokens mit demselben Rabatt von 75% im Vergleich zu Standard-Eingabetokens berechnet. So können Sie sicher Kosten sparen. Außerdem wird eine Speichergebühr basierend auf der Dauer der Datenspeicherung berechnet.

Wann Kontext-Caching verwendet werden sollte

Kontext-Caching ist am effektivsten in Szenarien, in denen in nachfolgenden Anfragen wiederholt auf einen großen anfänglichen Kontext verwiesen wird.

Sie können im Cache gespeicherte Kontextelemente, z. B. große Dokumente oder Videodateien, in Prompt-Anfragen an die Gemini API verwenden. In jeder Anfrage kann derselbe zwischengespeicherte Kontext mit eindeutigem Text kombiniert werden. In einer Chatunterhaltung über ein Video kann beispielsweise jeder Prompt auf denselben zwischengespeicherten Videokontext verweisen, zusammen mit dem neuen Text für jede Chatrunde.

Ziehen Sie die Verwendung von Kontext-Caching für die folgenden Anwendungsfälle in Betracht:

  • Chatbots mit ausführlichen Systemanweisungen
  • Wiederholte Analyse langer Videodateien
  • Wiederkehrende Abfragen großer Dokumentgruppen
  • Häufige Analyse des Code-Repositorys oder Fehlerbehebung

Da LLM-Antworten nicht deterministisch sind, sorgt die Verwendung desselben Kontext-Caches und Prompts nicht für identische Modellantworten. In einem Kontextcache werden Teile des Eingabe-Prompts gespeichert, nicht die Ausgabe des Modells.

Kosteneffizienz durch Caching

Das Kontext-Caching ist eine kostenpflichtige Funktion, die Ihre Gesamtbetriebskosten senken soll. Die Abrechnung für das Zwischenspeichern von Kontext basiert auf den folgenden Faktoren:

  • Anzahl der Cache-Tokens: Die Anzahl der im Cache gespeicherten Eingabetokens, für die ein ermäßigter Tarif für die Nutzung in nachfolgenden Prompts gilt.
  • Speicherdauer: Die Zeit, über die hinweg im Cache gespeicherte Tokens erhalten werden. Die Abrechnung erfolgt stündlich. Die im Cache gespeicherten Tokens werden gelöscht, wenn ein Kontext-Cache abläuft.
  • Andere Faktoren: Es fallen weitere Gebühren an, z. B. für nicht im Cache gespeicherte Eingabe- und Ausgabetokens.

Die Anzahl der Tokens im im Cache gespeicherten Teil Ihrer Eingabe finden Sie im Feld cachedContentTokenCount der Antwortmetadaten. Weitere Informationen finden Sie unter cachedContentTokenCount.

Informationen zum Cache-Hit-Token finden Sie im Metadatenfeld der Antworten. Informationen zum Deaktivieren dieser Funktion finden Sie unter Generative KI und Data Governance.

Preisinformationen finden Sie auf der Gemini-Preisseite unter „Gemini und Kontext-Caching“.

Unterstützung für den bereitgestellten Durchsatz

Die Unterstützung für das Zwischenspeichern von Kontext für den bereitgestellten Durchsatz befindet sich in der Vorschau für das Standard-Caching. Das Zwischenspeichern von Kontext mithilfe der Vertex AI API wird für den bereitgestellten Durchsatz nicht unterstützt. Weitere Informationen finden Sie im Leitfaden zum bereitgestellten Durchsatz.

Unterstützung optimierter Modelle

Das Kontext-Caching wird sowohl von Basis- als auch von feinabgestimmten Gemini-Modellen unterstützt. Weitere Informationen finden Sie unter Kontext-Cache für feinabgestimmte Gemini-Modelle.

Unterstützte Modelle

Die folgenden Gemini-Modelle unterstützen das Zwischenspeichern von Kontext:

Weitere Informationen finden Sie unter Verfügbare stabile Gemini-Modellversionen. Das Zwischenspeichern von Kontext unterstützt alle MIME-Typen für unterstützte Modelle.

Verfügbarkeit

Kontext-Caching ist in Regionen verfügbar, in denen Generative AI in Vertex AI verfügbar ist. Weitere Informationen finden Sie unter Generative AI in Vertex AI-Standorten.

Unterstützung durch VPC Service Controls

Das Zwischenspeichern von Kontexten unterstützt VPC Service Controls, wodurch verhindert wird, dass Ihr Cache außerhalb Ihres Dienstperimeters verschoben wird. Wenn Sie Cloud Storage zum Erstellen Ihres Cache verwenden, sollten Sie Ihren Bucket in Ihren Dienstperimeter aufnehmen, um Ihre Cacheinhalte zu schützen.

Weitere Informationen finden Sie unter VPC Service Controls mit Vertex AI.

Nächste Schritte