Prompt-Caching

Die Anthropic Claude-Modelle bieten Prompt-Caching, um die Latenz und die Kosten zu senken, wenn derselbe Inhalt in mehreren Anfragen wiederverwendet wird. Wenn Sie eine Anfrage senden, können Sie alle oder bestimmte Teile Ihrer Eingabe im Cache speichern, damit bei nachfolgenden Anfragen die im Cache gespeicherten Ergebnisse der vorherigen Anfrage verwendet werden können. So werden zusätzliche Rechen- und Netzwerkkosten vermieden. Caches sind nur für Ihr Google Cloud -Projekt verfügbar und können nicht von anderen Projekten verwendet werden.

Weitere Informationen zum Strukturieren von Prompts finden Sie in der Anthropic-Dokumentation unter Prompt caching.

Unterstützte Anthropic Claude-Modelle

Vertex AI unterstützt das Zwischenspeichern von Prompts für die folgenden Anthropic Claude-Modelle:

Datenverarbeitung

Das explizite Prompt-Caching von Anthropic ist ein Feature der Anthropic Claude-Modelle. Die Vertex AI-Version dieser Anthropic-Modelle verhält sich wie in der Anthropic-Dokumentation beschrieben.

Das Zwischenspeichern von Prompts ist eine optionale Funktion. Claude berechnet die Hashes (Fingerabdrücke) von Anfragen für Caching-Schlüssel. Diese Hashes werden nur für Anfragen berechnet, für die das Caching aktiviert ist.

Obwohl das Prompt-Caching eine Funktion ist, die von den Claude-Modellen implementiert wird, betrachtet Google diese Hashes aus Sicht der Datenverarbeitung als eine Art „Nutzermetadaten“. Sie werden gemäß den Google CloudDatenschutzhinweisen als „Dienstdaten“ des Kunden und nicht als „Kundendaten“ gemäß dem Zusatz zur Verarbeitung von Cloud-Daten (Kunden) behandelt. Insbesondere gelten keine zusätzlichen Schutzmaßnahmen für „Kundendaten“ für diese Hashes. Google verwendet diese Hashes nicht für andere Zwecke.

Wenn Sie diese Funktion zum Zwischenspeichern von Prompts vollständig deaktivieren und in bestimmten Google Cloud Projekten nicht verfügbar machen möchten, können Sie dies beantragen, indem Sie sich mit den entsprechenden Projektnummern an den Kundensupport wenden. Nachdem das explizite Caching für ein Projekt deaktiviert wurde, werden Anfragen aus dem Projekt mit aktiviertem Prompt-Caching abgelehnt.

Prompt-Caching verwenden

Sie können das Anthropic Claude SDK oder die Vertex AI REST API verwenden, um Anfragen an den Vertex AI-Endpunkt zu senden.

Weitere Informationen finden Sie unter So funktioniert das Zwischenspeichern von Prompts.

Weitere Beispiele finden Sie in der Anthropic-Dokumentation unter Prompt caching examples.

Das Caching erfolgt automatisch, wenn nachfolgende Anfragen denselben Text, dieselben Bilder und denselben cache_control-Parameter wie die erste Anfrage enthalten. Alle Anfragen müssen auch den Parameter cache_control in denselben Blöcken enthalten.

Der Cache hat eine Lebensdauer von fünf Minuten. Er wird jedes Mal aktualisiert, wenn auf die zwischengespeicherten Inhalte zugegriffen wird.

Preise

Das Zwischenspeichern von Prompts kann sich auf die Abrechnungskosten auswirken. Hinweis:

  • Cache-Schreib-Tokens sind 25% teurer als Basis-Eingabe-Tokens.
  • Cache-Lesetokens sind 90% günstiger als Basis-Eingabetokens.
  • Für reguläre Eingabe- und Ausgabetokens gelten Standardpreise.

Weitere Informationen finden Sie auf der Preisseite.