Kosten für das Erstellen und Bereitstellen von KI-Modellen in Vertex AI

Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Ihnen werden nur Anfragen in Rechnung gestellt, die den Antwortcode 200 zurückgeben. Für Anfragen, die andere Antwortcodes zurückgeben, z. B. 4xx- und 5xx-Codes, werden die Eingabe und Ausgabe nicht berechnet.

Auf dieser Seite sind die Preise für die generative KI in Vertex AI beschrieben. Informationen zu allen anderen Preisen für Vertex AI, einschließlich der ML Platform- und MLOps-Dienste, finden Sie in der Preisübersicht zu Vertex AI.

Google-Modelle

Gemini 3

Modell	Typ	Preis (/1M Tokens) <= 200K Eingabetokens	Preis (/1M Tokens) > 200.000 Eingabetokens	Preis (/1M Tokens) <= 200.000 zwischengespeicherte Eingabetokens	Preis (/1 Mio. Tokens) > 200.000 im Cache gespeicherte Eingabetokens	Preis (/1M Tokens) <= 200.000 Eingabetokens mit Batch-API	Preis (/1 Mio. Tokens) > 200.000 Eingabetokens mit Batch-API
Gemini 3 Pro (Vorabversion)
	Eingabe (Text, Bild, Video, Audio)	2 $	4 $	0,2 $	0,40 $	1 $	2 $
	Textausgabe (Antwort und Begründung)	12 $	18 $	–	–	6 $	9 $
	Bildausgabe**	120 $	–	–	–	60 $	–
Gemini 3 Flash (Vorabversion)
	Eingabe (Text, Bild, Video)	0,50 $	0,50 $	0,05 $	0,05 $	0,25 $	0,25 $
	Eingabe (Audio)	1 $	1 $	0,1 $	0,1 $	0,50 $	0,50 $
	Textausgabe (Antwort und Begründung)	3 $	3 $	–	–	1,50 $	1,50 $
Fundierung mit der Google Suche und Webfundierung für Unternehmen	Enthält 5.000 Suchanfragen pro Monat ohne Aufpreis, zusammengefasst über alle Gemini 3-Modelle. Suchanfragen, die diese Limits überschreiten, werden mit 14$pro 1.000 Suchanfragen berechnet. Eine von einem Kundenunternehmen an Gemini gesendete Anfrage kann zu einer oder mehreren Abfragen an die Google Suche (oder Web Grounding for Enterprise) führen. Ihnen wird jede einzelne Suchanfrage in Rechnung gestellt. Die Abrechnung beginnt am 5. Januar 2026. Für Eingabetokens, die durch die Fundierung mit der Google Suche oder die Web-Fundierung für Unternehmen bereitgestellt werden, fallen keine Kosten an. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen.
Fundierung mit Google Maps	Enthält 5.000 Suchanfragen pro Monat ohne Aufpreis, zusammengefasst über alle Gemini 3-Modelle. Maps-Abfragen, die diese Limits überschreiten, werden mit 14$pro 1.000 Abfragen berechnet. Eine von einem Kundenunternehmen an Gemini gesendete Anfrage kann zu einer oder mehreren Anfragen an Google Maps führen. Ihnen wird jede einzelne ausgeführte Abfrage in Rechnung gestellt. Abrechnung ab 5. Januar 2026 Von Google Maps bereitgestellte Eingabetokens werden nicht berechnet.
Fundierung mit Ihren Daten	2,50 $ pro 1.000 Prompts.

* Wenn der Kontext einer Abfrageeingabe länger als 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für lange Kontexte berechnet.
** Ein Ausgabebild mit 1K (1024 x 1024) und 2K (2048 x 2048) verbraucht 1.120 Bildausgabe-Tokens, was 0,134 $/generiertes Bild entspricht. Ein 4K-Bild (4096 × 4096) verbraucht 2.000 Bildausgabetokens, was 0,24 $/generiertes Bild entspricht.

Gemini 2.5

Modell	Typ	Preis (/1M Tokens) <= 200K Eingabetokens	Preis (/1M Tokens) > 200.000 Eingabetokens	Preis (/1M Tokens) <= 200.000 zwischengespeicherte Eingabetokens	Preis (/1 Mio. Tokens) > 200.000 im Cache gespeicherte Eingabetokens	Preis (/1M Tokens) <= 200.000 Eingabetokens mit Batch-API	Preis (/1 Mio. Tokens) > 200.000 Eingabetokens mit Batch-API
Gemini 2.5 Pro
	Eingabe (Text, Bild, Video, Audio)	1,25 $	2,50 $	0,125 $	$0.250	0,625 $	1,25 $
	Textausgabe (Antwort und Begründung)	10 $	15 $	–	–	5 $	7,50 $
Gemini 2.5 Pro Computer Use-Preview
	Eingabe (Text, Bild, Video, Audio)	1,25 $	2,50 $	–	–	–	–
	Textausgabe (Antwort und Begründung)	10,00 $	15,00 €	–	–	–	–
Gemini 2.5 Flash
	Eingabe (Text, Bild, Video)	0,30 $	0,30 $	0,030 $	0,030 $	0,15 $	0,15 $
	Audioeingabe	1 $	1 $	0,100 $	0,100 $	0,50 $	0,50 $
	Textausgabe (Antwort und Begründung)	2,50 $	2,50 $	–	–	1,25 $	1,25 $
	Bildausgabe***	30 $	30 $	–	–	15 $	15 $
Gemini 2.5 Flash Live API
	1 Mio. Eingabetext-Tokens	0,50 $	0,50 $	–	–	–	–
	1 Mio. Audio-Eingabetokens	3 $	3 $	–	–	–	–
	1 Mio. Eingabetokens für Videos/Bilder	3 $	3 $	–	–	–	–
	1 Mio. Ausgabetext-Tokens	2 $	2 $	–	–	–	–
	1 Mio. Ausgabetokens für Audio	12 $	12 $	–	–	–	–
Gemini 2.5 Flash Lite
	Eingabe (Text, Bild, Video)	0,1 $	0,1 $	0,010 $	0,010 $	0,05 $	0,05 $
	Audioeingabe	0,30 $	0,30 $	0,030 $	0,030 $	0,15 $	0,15 $
	Textausgabe (Antwort und Begründung)	0,40 $	0,40 $	–	–	0,2 $	0,2 $
Fundierung mit der Google Suche	Gemini 2.0 Flash, 2.5 Flash und 2.5 Flash-Lite bieten insgesamt 1.500 gegroundete Prompts pro Tag ohne Aufpreis. Gemini 2.5 Pro umfasst 10.000 verankerte Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche stellt&ast;&ast;. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen.
Webfundierung für Unternehmen	45$pro 1.000 Prompts mit Grounding. Ein verankerter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise richtet**. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.
Fundierung mit Ihren Daten	2,5 $ pro 1.000 Anfragen.
Fundierung mit Google Maps	25$pro 1.000 gegroundete Prompts. Ein geerdeter Prompt ist eine an Gemini gesendete Anfrage, die mindestens eine Abfrage an Google Maps enthält.

* Wenn der Kontext einer Abfrageeingabe länger als 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Tarifen für lange Kontexte abgerechnet.
** Die Verankerung mit der Google Suche und die Webverankerung für Unternehmen werden nur dann in Rechnung gestellt, wenn eine Eingabeaufforderung erfolgreich Web-Ergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Verankerung aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.
*** Ein Bild mit 1024 × 1024 Pixeln verbraucht 1290 Tokens. Die Anzahl der Tokens pro Bild variiert je nach Bildauflösung. Weitere Informationen zum Berechnen von Tokens finden Sie in unserer Dokumentation.
**** Für die Abrechnung der Computernutzung wird die Gemini 2.5 Pro-SKU verwendet, um die Kosten für die Computernutzung aufzuschlüsseln und Abrechnungstags anzuwenden. Weitere Informationen

Abrechnung des Kontextfensters für LiveAPI-Sitzungen: Ihnen werden pro Runde alle Tokens in Rechnung gestellt, die im Kontextfenster der Sitzung vorhanden sind. Das Sitzungskontextfenster enthält neue Tokens (aktuelle Runde) und alle angesammelten Tokens aus vorherigen Runden. Das bedeutet, dass Tokens aus früheren Runden neu verarbeitet und in jeder neuen Runde berücksichtigt werden, bis zur konfigurierten Größe des Kontextfensters. Ein „Turn“ ist eine Nutzereingabe und die Antwort des Modells.
Proaktiver Audiomodus: Wenn dieser Modus aktiviert ist, werden Eingabetokens berechnet, während die LiveAPI zuhört. Ausgabetokens werden nur berechnet, wenn die API antwortet.
Wenn die Audio-zu-Text-Transkription aktiviert ist, werden alle für die Transkription generierten Text-Tokens zum Ausgabepreis für Text-Tokens berechnet.

Gemini 2.0

Gemini 2.0 wird auf der Grundlage von Tokens abgerechnet. Wenn Sie die Anzahl der Eingabetokens in Ihrer Anfrage berechnen möchten, bevor Sie die Anfrage senden, können Sie den SDK-Tokenizer oder die countTokens API verwenden. Wenn Ihre Anfrage mit einem 400- oder 500-Fehler fehlschlägt, werden Ihnen die verwendeten Tokens nicht in Rechnung gestellt.

Mit dem Schalter in der Preistabelle können Sie die tokenbasierten Preise mit den modalitätsbasierten Preisen vergleichen.

Tokenbasierte Preise

Modell	Typ	Preis	Preis mit Batch API
Gemini 2.0 Flash
	1 Mio. Eingabetokens	0,15 $	0,075 $
	1 Mio. Tokens für Audioeingabe	1,00 $	0,50 $
	1 Mio. Ausgabetext-Tokens	0,60 $	0,30 $
	Abstimmung für 1 Million Trainings-Tokens	3,00 $
Bildgenerierung mit Gemini 2.0 Flash
	1 Mio. Eingabetokens	0,15 $
	1 Mio. Audio-Eingabetokens	1,00 $
	1 Mio. Eingabevideotokens	3 $
	1 Mio. Ausgabetext-Tokens	0,60 $
	1 Mio. Ausgabetokens für Bilder	30,00 $
Gemini 2.0 Flash Live API
	1 Mio. Eingabetext-Tokens	0,50 $
	1 Mio. Audio-Eingabetokens	3 $
	1 Mio. Eingabetokens für Videos/Bilder	3 $
	1 Mio. Ausgabetext-Tokens	2 $
	1 Mio. Ausgabetokens für Audio	12 $
Gemini 2.0 Flash Lite
	1 Mio. Eingabetokens	0,075 $	0,0375 $
	1 Mio. Tokens für Audioeingabe	0,075 $	0,0375 $
	1 Mio. Ausgabetext-Tokens	0,30 $	0,15 $
	Abstimmung für 1 Million Trainings-Tokens	1,00 $
Fundierung mit der Google Suche	Gemini 2.0 Flash und 2.5 Flash bieten insgesamt 1.500 verankerte Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.
Webfundierung für Unternehmen	45$pro 1.000 Prompts mit Grounding. Ein geerdeter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.
Fundierung mit Ihren Daten	2,5 $ pro 1.000 Anfragen ab dem 16. Juni 2025.
Fundierung mit Google Maps	Gemini-Modelle umfassen eine Reihe von täglich geerdeten Prompts ohne Aufpreis: Gemini Flash und Flash-Lite: zusammen 1.500 verankerte Prompts pro Tag. Gemini Pro: 10.000 Prompts pro Tag mit Verankerung Grounded Prompts, die diese Limits überschreiten, werden mit 25$pro 1.000 Grounded Prompts berechnet. Ein verankerter Prompt ist eine an Gemini gesendete Anfrage, die mindestens eine Abfrage an Google Maps enthält. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.

Modalitätsbasierte Preise

Die unten aufgeführten Preise für Modalitäten basieren auf durchschnittlichen Anwendungsfällen und dienen nur als Referenz. Die tatsächliche Abrechnung basiert nur auf Tokens:

4 Zeichen ergeben ungefähr 1 Text-Token einschließlich Leerzeichen.

Ein Bild mit 1.024 × 1.024 Pixeln verbraucht 1.290 Tokens. Die Anzahl der Tokens pro Bild variiert je nach Bildauflösung. Weitere Informationen zum Berechnen von Tokens finden Sie in unserer Dokumentation.

Die Videoeingabe verbraucht 258 Tokens pro Sekunde bei einer Abtastrate von einem Frame pro Sekunde. Bei Videos mit Audio werden sowohl Video- als auch Audio-Tokens abgerechnet.

Audioeingaben ohne Zeitstempel verbrauchen 25 Tokens pro Sekunde.

Modell	Typ	Preis	Preis mit Batch API
Gemini 2.0 Flash
	Text eingeben ($/Mio. Zeichen)	0,0375 $	0,01875 $
	Eingabebild (USD/Bild)	0,0001935 $	0,00009675 $
	Eingabevideo ($/Sek.)	0,0000387$	0,00001935 $
	Eingabeaudio ($/Sek.)	0,000025 $	0,0000125 $
	Text ausgeben ($/Mio. Zeichen)	0,15 $	0,075 $
Bildgenerierung mit Gemini 2.0 Flash
	Text eingeben ($/Mio. Zeichen)	0,0375 $
	Eingabebild (USD/Bild)	0,0001935 $
	Eingabevideo ($/Sek.)	0,0000387$
	Eingabeaudio ($/Sek.)	0,000025 $
	Text ausgeben ($/Mio. Zeichen)	0,15 $
	Ausgabebild ($/Bild)	0,04 $
Gemini 2.0 Flash Lite
	Text eingeben ($/Mio. Zeichen)	0,01875 $	0,009375 $
	Eingabebild (USD/Bild)	0,00009675 $	0,000048375 $
	Eingabevideo ($/Sek.)	0,00001935 $	0,000009675 $
	Eingabeaudio ($/Sek.)	0,000001875 $	0,000000938 $
	Text ausgeben ($/Mio. Zeichen)	0,075 $	0,0375 $
Fundierung mit der Google Suche	Gemini 2.0 Flash und 2.5 Flash bieten insgesamt 1.500 verankerte Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.
Webfundierung für Unternehmen	45$pro 1.000 Prompts mit Grounding. Ein geerdeter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.

* Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* Trainings-Tokens werden anhand der Gesamtzahl der Tokens in Ihrem Trainings-Dataset berechnet, multipliziert mit der Anzahl der Epochen.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Die Verankerung mit der Google Suche und die Webverankerung für Unternehmen werden nur dann abgerechnet, wenn ein Prompt erfolgreich Webergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Verankerung aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.
* Gemini 2.0 Flash Live API: 25 Tokens pro Sekunde Audio (Ein-/Ausgabe), 258 Tokens pro Sekunde Video (Eingabe). Die Fundierung mit der Google Suche bleibt kostenlos, solange sich die Gemini 2.0 Flash Live API in der Vorschau befindet.

Abrechnung des Kontextfensters für LiveAPI-Sitzungen: Ihnen werden pro Runde alle Tokens in Rechnung gestellt, die im Kontextfenster der Sitzung vorhanden sind. Das Sitzungskontextfenster enthält neue Tokens (aktuelle Runde) und alle angesammelten Tokens aus vorherigen Runden. Das bedeutet, dass Tokens aus früheren Runden neu verarbeitet und in jeder neuen Runde berücksichtigt werden, bis zur konfigurierten Größe des Kontextfensters. Ein „Turn“ ist eine Nutzereingabe und die Antwort des Modells.
Wenn die Audio-zu-Text-Transkription aktiviert ist, werden alle für die Transkription generierten Text-Tokens zum Ausgabepreis für Text-Tokens berechnet.

Vertex AI Model Optimizer – Preise (experimentell)*

Der Vertex AI Model Optimizer vereinfacht die Nutzung von Gemini für Unternehmenskunden, indem er einen einzelnen Meta-Endpunkt für Gemini-Modellanfragen bereitstellt. Kunden, die diesen Dienst nutzen, müssen nicht angeben, ob sie Flash, Pro oder eine bestimmte Version verwenden möchten. Stattdessen geben sie einfach eine konfigurierbare Einstellung (Kosten, Qualität oder Gleichgewicht) an, um ihre Präferenzen anzugeben. Der Modelloptimierer wendet dann die richtige Intelligenzebene an, die für die Aufgabe geeignet ist, indem er jede Abfrage an das am besten geeignete Modell sendet.

Für Vertex AI Model Optimizer gilt eine dynamische Preisgestaltung. Das bedeutet, dass der durchschnittliche Preis pro Token vom Intelligenzgrad des Modells abhängt, das zur Erledigung der Aufgabe verwendet wird. Daher werden unten Preisbeispiele aufgeführt, um wahrscheinliche Szenarien basierend auf Ihrer Konfigurationseinstellung zu veranschaulichen (siehe Tabellen unten). Model Optimizer-SKUs sind 1-Dollar-SKUs, die als Einkaufseinheit für die Abrechnung dienen. Die Abrechnung erfolgt weiterhin nutzungsbasiert, nachdem Sie die Modelle verwendet haben.

I/O-Verhältnis von 5:1	Beispiel 1: Chatbot	HINWEIS: Diese Bereiche sind nicht garantiert, die Ergebnisse können je nach Kunde variieren.
Kundenpräferenz	An Marketingziele gesendete Eingabetokens	An Marketingziele gesendete Ausgabetokens	Durchschnittlicher Eingabepreis pro Million Tokens (hoher Bereich)	Durchschnittlicher Ausgabepreis pro Million Tokens (hoher Bereich)	Durchschnittlicher Eingabepreis pro Million Tokens (niedriger Bereich)	Durchschnittlicher Ausgabepreis pro Million Tokens (niedriger Bereich)
Kosten	10.000.000	2.000.000	0,63 $	2,50 $	0,16 $	0,63 $
Ausgeglichen	10.000.000	2.000.000	1,26 $	5,00 $	0,63 $	2,50 $
Qualität	10.000.000	2.000.000	1,89 $	7,50 $	1,26 $	5,00 $

I/O-Verhältnis von 1:20	Beispiel 2: Erstellung von Inhalten
Kundenpräferenz	An Marketingziele gesendete Eingabetokens	An Marketingziele gesendete Ausgabetokens	Durchschnittlicher Eingabepreis pro Million Tokens (hoher Bereich)	Durchschnittlicher Ausgabepreis pro Million Tokens (hoher Bereich)	Durchschnittlicher Eingabepreis pro Million Tokens (niedriger Bereich)	Durchschnittlicher Ausgabepreis pro Million Tokens (niedriger Bereich)
Kosten	1.000.000	20.000.000	0,63 $	2,50 $	0,16 $	0,63 $
Ausgeglichen	1.000.000	20.000.000	1,26 $	5,00 $	0,63 $	2,50 $
Qualität	1.000.000	20.000.000	1,89 $	7,50 $	1,26 $	5,00 $

* Model Optimizer ist ein kostenpflichtiges experimentelles Angebot. Anfragen werden möglicherweise an experimentelle Versionen von Gemini in Vertex weitergeleitet.

Andere Gemini-Modelle

Alle Gemini-Modelle außer Gemini 2.0 und Gemini 2.5 werden nach Modalitäten wie Zeichen, Bilder und Video-/Audiosekunden abgerechnet. Texteingaben werden pro 1.000 Eingabezeichen (Prompt) und pro 1.000 Ausgabezeichen (Antwort) abgerechnet. Alle Zeichen werden durch UTF-8-Codepunkte gezählt. Leerzeichen werden nicht berücksichtigt. Das Ergebnis sind ungefähr 4 Zeichen pro Token. Vorhersageanfragen, die zu gefilterten Antworten führen, werden nur für die Eingabe abgerechnet. Am Ende jedes Abrechnungszeitraums werden Bruchteile von einem Cent (0, 01 $) auf einen Cent aufgerundet. Die Medieneingabe wird pro Bild oder Sekunde (Video) berechnet. Wenn Ihre Anfrage mit einem 400- oder 500-Fehler fehlschlägt, werden Ihnen die verwendeten Tokens nicht in Rechnung gestellt.

Modell	Funktion	Typ	Preis ( =< 128.000 Eingabetoken)	Preis ( > 128.000 Eingabetokens)
Gemini 1.5 Flash	Multimodal	Bildeingabe Videoeingabe Texteingabe Audioeingabe	0,00002 $ / Bild 0,00002 $ / Sekunde 0,00001875 $ / 1.000 Zeichen 0,000002 $ / Sekunde	0,00004 $ / Bild 0,00004 $ / Sekunde 0,0000375 $ / 1.000 Zeichen 0,000004 $ / Sekunde
		Textausgabe	0,000075 $ / 1.000 Zeichen	0,00015 $ / 1.000 Zeichen
	Abstimmung*	Trainingstoken	8 $ pro 1 Mio. Tokens
Gemini 1.5 Pro	Multimodal	Bildeingabe Videoeingabe Texteingabe Audioeingabe	0,00032875 $ / Bild 0,00032875 $ / Sekunde 0,0003125 $ / 1.000 Zeichen 0,00003125 $ / Sekunde	0,0006575 $ / Bild 0,0006575 $ / Sekunde 0,000625 $ / 1.000 Zeichen 0,0000625 $ / Sekunde
		Textausgabe	0,00125 $ / 1.000 Zeichen	0,0025 $ / 1.000 Zeichen
	Abstimmung*	Trainingstoken	80 $ pro 1 Mio. Tokens
Gemini 1.0 Pro	Multimodal	Bildeingabe Videoeingabe Texteingabe	0,0025 $ / Bild 0,002 $ / Sekunde 0,000125 $ / 1.000 Zeichen
Gemini 1.0 Pro		Textausgabe	0,000375 $ / 1.000 Zeichen
Fundierung mit der Google Suche	Text	35$pro 1.000 gegroundeten Prompts. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen.
Webfundierung für Unternehmen	Text	45$pro 1.000 Prompts mit Grounding. Ein Grounding-Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding für Unternehmen* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen.
Fundierung mit Ihren Daten	Text	2,5 $ pro 1.000 Anfragen ab dem 16. Juni 2025.

* Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* Wenn ein Abfragekontext länger als 128.000 Tokens ist, werden alle Tokens zu den Preisen für lange Kontexte abgerechnet.
* Gemini-Modelle sind im Batch-Modus mit einem Rabatt von 50% verfügbar.
* Gemini 1.0 Pro unterstützt nur ein Kontextfenster mit bis zu 32.000 Tokens.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Grounding mit der Google Suche und Web Grounding für Unternehmen werden nur dann abgerechnet, wenn eine Eingabeaufforderung erfolgreich Webergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Unterstützung des Groundings aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.

Imagen

Mit Imagen in Vertex AI können Sie neue Bilder generieren und Bilder basierend auf den von Ihnen bereitgestellten Text-Prompts bearbeiten oder nur Teile von Bildern mit einem Maskenbereich, den Sie zusammen mit einer Reihe anderer Funktionen definieren, bearbeiten.

Modell	Feature	Beschreibung	Eingabe	Ausgabe	Preis
Imagen 4 Ultra	Bildgenerierung	Image generieren	Text-Prompt	Bild	0,06 $ pro Bild
Imagen 4	Auflösung wird erhöht	Auflösung eines generierten Bildes auf 2.000, 3.000 und 4.000 erhöhen	Bild	Bild	0,06 $ pro Bild
Imagen 4	Bildgenerierung	Image generieren	Text-Prompt	Bild	0,04 $ pro Bild
Imagen 4 Fast	Bildgenerierung	Image generieren	Text-Prompt	Bild	0,02 $ pro Bild
Imagen 3	Bildgenerierung	Bild generieren Bild bearbeiten Bild anpassen	Text-Prompt	Bild	0,04 $ pro Bild
Imagen 3 Fast	Bildgenerierung	Image generieren	Text-Prompt	Bild	0,02 $ pro Bild
Imagen 2, Imagen 1	Bildgenerierung	Image generieren	Text-Prompt	Bild	0,020 $ pro Bild
Imagen 2, Imagen 1	Bildbearbeitung	Bild mit maskenfreiem Ansatz oder Maskenansatz bearbeiten	Bild-/Text-Prompt	Bild	0,020 $ pro Bild
Imagen 1	Auflösung wird erhöht	Auflösung eines generierten Bildes auf 2.000 und 4.000 erhöhen	Bild	Bild	0,003 $ pro Bild
Imagen 1	Abstimmung	Aktivieren Sie einen "Betreff", der vom Nutzer für die Verwendung von Imagen-Prompts bereitgestellt wurde (weniger Aufnahmetraining).	Betreff mit Textkennung und 4–8 Bildern pro Betreff	Feinabstimmung des Modells (nach dem Training mit vom Nutzer bereitgestellten Betreff)	$ pro Knotenstunde Preise für benutzerdefiniertes Vertex AI-Training
Imagen	Visuelle Untertitel	Kurze oder lange Textuntertitel für ein Bild generieren	Bild	Textunterschrift	0,0015 $ pro Bild
Imagen	Visual Question Answering	Eine Antwort basierend auf einer Frage bereitstellen, die auf ein Bild verweist	Bild-/Text-Prompt	Textantwort	0,0015 $ pro Bild
Imagen	Produkt-Rekontextualisierung	Produkte in einer neuen Szene neu in Szene setzen	1–3 Bilder desselben Produkts und ein Text-Prompt, der die gewünschte Szene beschreibt	Bild	0,12 $ pro Bild
	Virtuelles Anprobieren mit Vertex	Bilder von Personen in unterschiedlicher Kleidung erstellen	1 Bild einer Person und 1 Bild von Kleidung	Bild	0,06 $ pro Bild

Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Veo

Veo erstellt Videos in unglaublich hoher Qualität zu einer Vielzahl von Themen und in verschiedenen Stilen. Dabei werden die physikalischen Gesetze und die Nuancen menschlicher Bewegungen und Mimik besser verstanden.

Modell	Funktion	Beschreibung	Eingaben	Ausgaben	Maximale Auflösung	Preis
Veo 3.1	Video- und Audiogenerierung	Hochwertige Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video und Audio	720p, 1080p	0,40 $/Sekunde
	Video- und Audiogenerierung	Hochwertige Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video und Audio	4K	0,60 $/Sekunde
	Videogenerierung	Hochwertige Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	720p, 1080p	0,20 $/Sekunde
	Videogenerierung	Hochwertige Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	4K	0,40 $/Sekunde
Veo 3.1 Fast	Video- und Audiogenerierung	Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild schneller generieren	Text-/Bild-Prompt	Video und Audio	720p, 1080p	0,15 $/Sekunde
	Video- und Audiogenerierung	Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild schneller generieren	Text-/Bild-Prompt	Video und Audio	4K	0,35 $/Sekunde
	Videogenerierung	Schneller Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	720p, 1080p	0,10 $/Sekunde
	Videogenerierung	Schneller Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	4K	0,30 $/Sekunde
Veo 3	Video- und Audiogenerierung	Hochwertige Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video und Audio	720p, 1080p	0,40 $/Sekunde
Veo 3	Videogenerierung	Hochwertige Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	720p, 1080p	0,20 $/Sekunde
Veo 3 Fast	Video- und Audiogenerierung	Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild schneller generieren	Text-/Bild-Prompt	Video und Audio	720p, 1080p	0,15 $/Sekunde
Veo 3 Fast	Videogenerierung	Schneller Videos aus einem Text-Prompt oder Referenzbild generieren	Text-/Bild-Prompt	Video	720p, 1080p	0,10 $/Sekunde
Veo 2	Videogenerierung	Videos aus einem Text-Prompt oder einem Referenzbild generieren	Text-/Bild-Prompt	Video	720p	0,50 $/Sekunde
Veo 2	Erweiterte Funktionen	Videos durch Interpolation von Anfangs- und Endframes generieren, generierte Videos verlängern und Kamerasteuerung anwenden	Text-/Bild-/Video-Prompt	Video	720p	0,50 $/Sekunde

Lyria

Lyria 2 bietet die Möglichkeit, hochwertige Instrumentalmusik zu generieren. Das ist ideal für anspruchsvolle Kompositionen und detaillierte kreative Experimente, bei denen es auf eine differenzierte Ausgabe ankommt.

Modell	Funktion	Beschreibung	Eingaben	Ausgaben	Preis
Lyria 2	Musikgenerierung	Musik aus einem Text-Prompt generieren	Text-Prompt	Musik	0,06 $ pro 30 Sekunden

Kosten für das Einbetten von KI-Anwendungen verstehen

Modell	Typ	Region	Preis pro 1.000 Eingabetokens
Gemini Embedding	Eingaben	Global	Onlineanfragen: 0,00015 $ Batchanfragen: 0,00012 $
Gemini Embedding	Ausgaben	Global	Onlineanfragen: kostenlos Batchanfragen: kostenlos

Modell	Typ	Region	Preis pro 1.000 Zeichen
Einbettungen für Text (ohne Gemini Embedding)	Eingaben	Global	Onlineanfragen: 0,000025 $ Batchanfragen: 0,00002 $
Einbettungen für Text (ohne Gemini Embedding)	Ausgabe	Global	Onlineanfragen: kostenlos Batchanfragen: kostenlos

Modell	Feature	Beschreibung	Eingabe	Ausgabe	Preis
multimodalembedding	Einbettungen für multimodale Attribute: Text	Einbettungen mit Text als Eingabe generieren	Text	Einbettungen	0,0002 $ pro 1.000 Zeichen Eingabe
	Einbettungen für multimodale Ausdrücke: Bild	Einbettungen mit Bild als Eingabe generieren	Bild	Einbettungen	0,0001 $ pro Bildeingabe
	Einbettungen für multimodale Attribute: Video Plus	Video Plus	Video	Einbettungen (bis zu 15 Einbettungen pro Minute Video)	0,0020 $ pro Sekunde Video
	Einbettungen für multimodale Ausdrücke: Video Standard	Video – Standard	Video	Einbettungen (bis zu 8 Einbettungen pro Minute Video)	0,0010 $ pro Sekunde Video
	Einbettungen für multimodale Ausdrücke: Video – Grundlagen	Video Essentials	Video	Einbettungen (bis zu 4 Einbettungen pro Minute Video)	0,0005 $ pro Sekunde Video

Open-Source-Modell	Typ	Preis pro 1.000 Eingabetokens
multilingual-e5-small	Eingabe: Ausgabe: Batcheingabe: Batchausgabe:	Onlineanfragen: 0,000015 $ Onlineanfragen: kostenlos Batchanfragen: 0,0000075 $ Batchanfragen: kostenlos
multilingual-e5-large	Eingabe: Ausgabe: Batcheingabe: Batchausgabe:	Onlineanfragen: 0,000025 $ Onlineanfragen: kostenlos Batchanfragen: 0,0000125 $ Batchanfragen: kostenlos

Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Preise für die Codevervollständigung von Vertex AI

Die Generative AI in Vertex AI wird nach 1.000 Zeichen Eingabe (Eingabeaufforderung) und 1.000 Zeichen Ausgabe (Antwort) abgerechnet. Alle Zeichen werden durch UTF-8-Codepunkte gezählt. Leerzeichen werden nicht berücksichtigt. Während der Vorschauphase werden Gebühren zu 100 % reduziert. Vorhersageanfragen, die zu gefilterten Antworten führen, werden nur für die Eingabe abgerechnet. Am Ende jedes Abrechnungszeitraums werden Bruchteile von einem Cent (0,01 $) auf einen Cent aufgerundet.

Modell	Typ	Region	Preis pro 1.000 Zeichen
Codey für Codevervollständigung	Eingabe	Global	Onlineanfragen: 0,00025 $
Codey für Codevervollständigung	Ausgabe	Global	Onlineanfragen: 0,0005 $

Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Übersetzen (Text)

Verwenden Sie die Vertex AI API und das Übersetzungs-LLM, um Text zu übersetzen. LLM-Übersetzungen klingen flüssiger und natürlicher als Übersetzungen mit klassischen Modellen, unterstützen aber weniger Sprachen (Weitere Informationen).

Modell	Methode	Nutzung	Preis pro 1 Million Zeichen
LLM	Textübersetzung^*	Anzahl der Eingabezeichen pro Monat	10 $ pro 1 Million Zeichen^*
	Textübersetzung^*	Anzahl der Ausgabetokens pro Monat	10 $ pro 1 Million Zeichen^*

Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
^* Preis pro Zeichen, das vom Modell verarbeitet wird. Weitere Informationen zu gezählten Zeichen finden Sie unter Gebührenpflichtige Zeichen.

Preis für Context Cache Storage für explizites Caching

Modell	Funktion	Typ	Preis (/1M Tokens) <= 200K Eingabetokens	Preis (/1M Tokens) > 200.000 Eingabetokens
Gemini 3 Pro	Kontext-Cache-Speicher	Eingabe (Text, Bild, Video, Audio)	4,50 $ (/Mio. Tokens/Std.)	4,50 $ (/Mio. Tokens/Std.)
Gemini 2.5 Pro	Kontext-Cache-Speicher	Eingabe (Text, Bild, Video, Audio)	4,50 $ (/Mio. Tokens/Std.)	4,50 $ (/Mio. Tokens/Std.)
Gemini 2.5 Flash	Kontext-Cache-Speicher	Eingabe (Text, Bild, Video, Audio)	1 $ (/Mio. Tokens/Std.)	1 $ (/Mio. Tokens/Std.)
Gemini 2.5 Flash Lite	Kontext-Cache-Speicher	Eingabe (Text, Bild, Video, Audio)	1 $ (/Mio. Tokens/Std.)	1 $ (/Mio. Tokens/Std.)

Gemini 2.0-Modelle

Tokenbasierte Preise

Modell	Typ	Speicher (M Token-Stunden)	Preis
Gemini 2.0 Flash
	1 Mio. Eingabetokens	1,00 $	0,0375 $
	1 Mio. Tokens für Audioeingabe	1,00 $	0,25 $
	1 Mio. Ausgabetext-Tokens	–	–
Gemini 2.0 Flash Lite
	1 Mio. Eingabetokens	1,00 $	0,01875 $
	1 Mio. Tokens für Audioeingabe	1,00 $	0,01875 $
	1 Mio. Ausgabetext-Tokens	–	–

Modalitätsbasierte Preise

Die unten aufgeführten Preise für Modalitäten basieren auf durchschnittlichen Anwendungsfällen und dienen nur als Referenz. Die tatsächliche Abrechnung basiert nur auf Tokens:

4 Zeichen ergeben ungefähr 1 Text-Token einschließlich Leerzeichen.

Die Videoeingabe verbraucht 258 Tokens pro Sekunde bei einer Abtastrate von einem Frame pro Sekunde. Bei Videos mit Audio werden sowohl Video- als auch Audio-Tokens abgerechnet.

Audioeingaben ohne Zeitstempel verbrauchen 25 Tokens pro Sekunde.

Modell	Typ	Speicher (Modalität-Stunde)	Preis
Gemini 2.0 Flash
	Text eingeben ($/Mio. Zeichen)	0,25 $	0,009375 $
	Eingabebild (USD/Bild)	0,00129 $	0,000048375 $
	Eingabevideo ($/Sek.)	0,000258 $	0,000009675 $
	Eingabeaudio ($/Sek.)	0,000025 $	0,00000625 $
	Text ausgeben ($/Mio. Zeichen)	–	–
Gemini 2.0 Flash Lite
	Text eingeben ($/Mio. Zeichen)	0,25 $	0,0046875 $
	Eingabebild (USD/Bild)	0,00129 $	0,0000241875 $
	Eingabevideo ($/Sek.)	0,000258 $	0,000009675 $
	Eingabeaudio ($/Sek.)	0,000258 $	0,0000048375 $
	Text ausgeben ($/Mio. Zeichen)	–	–
Fundierung mit der Google Suche	Gemini 2.0 Flash umfasst bis zu 1.500 Anfragen pro Tag ohne Aufpreis. Anfragen mit Verankerung über 1.500 pro Tag werden mit 35 $pro 1.000 Anfragen berechnet (bis zu 1 Million Anfragen pro Tag). Wenn Sie mehr als 1 Million Anfragen pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.
Webfundierung für Unternehmen	45 $ pro 1.000 Anfragen (bis zu 1 Million Anfragen pro Tag) ab dem 5. Mai 2025. Wenn Sie mehr als 1 Million Anfragen pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team.

* Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Die Verankerung mit der Google Suche wird nur für Anfragen abgerechnet, die Ergebnisse mit mindestens einer Verankerungs-Support-URL aus dem Web zurückgeben. Es fallen die üblichen Gebühren für die Nutzung von Gemini-Modellen an.

Bereitgestellter Durchsatz

Bereitgestellter Durchsatz sichert den Durchsatz für Ihre Anforderungen an generative KI und wird über Skalierungseinheiten der generativen KI oder GSUs abgerechnet. Hier finden Sie weitere Informationen zum Durchsatz der einzelnen GSUs. Nutzen Sie auch unseren Online-Schätzer hier.

Dauer	Preis pro GSU	Pro
1 Woche	1.200 $	Woche
Mindestlaufzeit 1 Monat	2.700 $	Monat
3 Monate	2.400 $	Monat
Zusicherung für 1 Jahr	2.000 $	Monat

Beispiel für die Kostenberechnung

Ein Nutzer muss sicherstellen,dass er 10 Abfragen pro Sekunde (QPS) einer Abfrage mit einer Eingabe von 1.000 Text-Tokens und 500 Audio-Tokens unterstützen und eine Ausgabe von 300 Text-Tokens mit gemini-2.0-flash erhalten kann.

Anhand der Tabelle mit Durchsatz und Verbrauchsrate für gemini-2.0-flash wissen wir, dass die Verbrauchsrate für ein Eingabetext-Token 1 Token, für ein Eingabeaudio-Token 7 Tokens und für ein Ausgabetext-Token 4 Tokens beträgt.

Die Gesamtzahl der Eingabetokens des Nutzers beträgt 1.000* (1 Token pro Eingabetext-Token) + 500* (7 Tokens pro Eingabe-Audio-Token) = 4.500 bereinigte Eingabetokens. Die Gesamtzahl der Ausgabetokens des Nutzers beträgt 300* (4 Tokens pro Ausgabetext-Token) = 1.200 bereinigte Ausgabetokens. Das ergibt 4.500 Eingabetokens + 1.200 Ausgabetokens = 5.700 Tokens pro Abfrage.

Wenn wir die Gesamtzahl der Tokens pro Abfrage mit der QPS multiplizieren, erhalten wir 5.700 Tokens pro Abfrage * 10 QPS = 57.000 Tokens pro Sekunde.

Wenn wir dies durch den Gesamtdurchsatz pro Sekunde und GSU teilen,erhalten wir 57.000 Gesamttokens pro Sekunde ÷ 3.360 Durchsatz pro Sekunde und GSU = 16,96 GSUs. Die Mindestkaufsteigerung für dieses Modell beträgt 1, sodass der Nutzer 17 GSUs benötigt.

Wenn der Nutzer diesen Durchsatz eine Woche lang aufrechterhalten möchte, kostet ihn das 1.200 $ * 17 GSUs = 20.400 $pro Woche. Wenn sie diesen Durchsatz einen Monat lang aufrechterhalten wollten, würde das 2.700 $ * 17 GSUs = 45.900 $pro Monat kosten. Wenn sie diesen Durchsatz drei Monate lang aufrechterhalten wollten, würde das 2.400 $× 17 GSUs = 40.800 $pro Monat kosten. Und wenn sie diesen Durchsatz ein Jahr lang aufrechterhalten wollten, würde das 2.000 $× 17 GSUs = 34.000 $pro Monat kosten.

Modellabstimmung

Die Modellabstimmung ist eine effektive Methode, um große Modelle an Ihre Aufgaben anzupassen. Dies ist ein wichtiger Schritt, um die Qualität und Effizienz des Modells zu verbessern. Die Modellabstimmung bietet folgende Vorteile:

Höhere Qualität für Ihre spezifischen Aufgaben
Erhöhte Robustheit des Modells
Niedrigere Inferenzlatenz und Kosten aufgrund kürzerer Prompts

Die Abstimmung wird pro Million Trainings-Tokens berechnet. Die Anzahl der Trainingstokens wird berechnet, indem die Gesamtzahl der Tokens in Ihrem Trainings-Dataset mit der Anzahl der Epochen multipliziert wird. Für die Modellinferenz hat der Endpunkt des abgestimmten Gemini-Modells denselben Vorhersagepreis wie das Basismodell.

Modell	Typ	Preis (/1 Mio. Trainingstokens)
Gemini 2.5 Pro	Überwachte Feinabstimmung	25 $
Gemini 2.5 Flash	Überwachte Feinabstimmung Präferenzabstimmung	5 $
Gemini 2.5 Flash Lite	Überwachte Feinabstimmung Präferenzabstimmung	1,50 $
Gemma 3 27B IT	Überwachte Feinabstimmung	6,83 $
Llama 3.1 8B	Überwachte Feinabstimmung	0,67 $
Llama 3.2 1B	Überwachte Feinabstimmung	0,28 $
Llama 3.2 3B	Überwachte Feinabstimmung	0,61 $
Llama 3.3 70B	Überwachte Feinabstimmung	6,72 $
Llama 4 Scout 17B 16E	Überwachte Feinabstimmung	5,77 $
Qwen 3 32B	Überwachte Feinabstimmung	6,57 $

* Die Anzahl der Trainingstokens wird berechnet, indem die Gesamtzahl der Tokens in Ihrem Trainings-Dataset mit der Anzahl der Epochen multipliziert wird.
* Für einen Gemini-Endpunkt mit abgestimmtem Modell gilt derselbe Preis für Vorhersagen wie für das Basismodell.

Preise für Partnermodelle in Vertex AI vergleichen

Partnermodelle sind eine ausgewählte Liste generativer KI-Modelle, die von Google-Partnern entwickelt wurden. Partnermodelle werden als verwaltete APIs angeboten. Weitere Informationen finden Sie unter Übersicht über Partnermodelle. In den folgenden Abschnitten finden Sie Preisinformationen zu Google-Partnermodellen.

Modelle von AI21 Labs

Modell	Preise
Jamba 1.5 Large (eingestellt)	Eingabe: 2 $ / Mio. Tokens Ausgabe: 8 $ / Mio. Tokens
Jamba 1.5 Mini (eingestellt)	Eingabe: 0,20 $ / Million Tokens Ausgabe: 0,40 $ / Million Tokens

Claude-Modelle von Anthropic

Modelle mit regionalen Preisen

Global

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Opus 4.5	Eingabe: 5,00 $ Ausgabe: 25,00 $ Batch-Eingabe: 2,50 $ Batch-Ausgabe: 12,50 $ 5 Min. Cache-Schreibvorgang: 6,25 $ 1 Std. Cache-Schreibvorgang: 10,00 $ Cache-Treffer: 0,50 $ 5 Min. Batch-Cache-Schreibvorgang: 3,125 $ 1 Std. Batch-Cache-Schreibvorgang: 5,00 $ Batch-Cache-Treffer: 0,25 $
Claude Sonnet 4.5	Eingabe: 3,00 $ Ausgabe: 15,00 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreibvorgang (5 Min.): 3,75 $ Cache-Schreibvorgang (1 Std.): 6,00 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreibvorgang (5 Min.): 1,88 $ Batch-Cache-Schreibvorgang (1 Std.): 3,00 $ Batch-Cache-Treffer: 0,15 $	Eingabe: 6,00 $ Ausgabe: 22,50 $ 5 Min. Cache-Schreiben: 7,50 $ 1 Std. Cache-Schreiben: 12,00 $ Cache-Treffer: 0,60 $
Claude Haiku 4.5	Eingabe: 1,00 $ Ausgabe: 5,00 $ Batch-Eingabe: 0,50 $ Batch-Ausgabe: 2,50 $ Cache-Schreibvorgang (5 Min.): 1,25 $ Cache-Schreibvorgang (1 Std.): 2,00 $ Cache-Treffer: 0,10 $ Batch-Cache-Schreibvorgang (5 Min.): 0,625 $ Batch-Cache-Schreibvorgang (1 Std.): 1,00 $ Batch-Cache-Treffer: 0,05 $

us-east5

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Opus 4.5	Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $
Claude Sonnet 4.5	Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ 5 Min. Cache-Schreibvorgang: 4,13 $ 1 Std. Cache-Schreibvorgang: 6,60 $ Cache-Treffer: 0,33 $ 5 Min. Batch-Cache-Schreibvorgang: 2,06 $ 1 Std. Batch-Cache-Schreibvorgang: 3,30 $ Batch-Cache-Treffer: 0,17 $	Eingabe: 6,60 $ Ausgabe: 24,75 $ Cache-Schreibvorgang (5 Minuten): 8,25 $ Cache-Schreibvorgang (1 Stunde): 13,20 $ Cache-Treffer: 0,66 $
Claude Haiku 4.5	Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Min.): 1,375 $ Cache-Schreibvorgang (1 Std.): 2,20 $ Cache-Schreibvorgang: 1,375 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang (5 Min.): 0,688 $ Batch-Cache-Schreibvorgang (1 Std.): 1,10 $ Batch-Cache-Treffer: 0,055 $

europe-west1

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Opus 4.5	Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $
Claude Sonnet 4.5	Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ 5 Min. Cache-Schreibvorgang: 4,13 $ 1 Std. Cache-Schreibvorgang: 6,60 $ Cache-Treffer: 0,33 $ 5 Min. Batch-Cache-Schreibvorgang: 2,06 $ 1 Std. Batch-Cache-Schreibvorgang: 3,30 $ Batch-Cache-Treffer: 0,17 $	Eingabe: 6,60 $ Ausgabe: 24,75 $ Cache-Schreibvorgang (5 Minuten): 8,25 $ Cache-Schreibvorgang (1 Stunde): 13,20 $ Cache-Treffer: 0,66 $
Claude Haiku 4.5	Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Minuten): 1,375 $ Cache-Schreibvorgang (1 Stunde): 2,20 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang (5 Minuten): 0,688 $ Batch-Cache-Schreibvorgang (1 Stunde): 1,10 $ Batch-Cache-Treffer: 0,055 $

asia-southeast1

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Opus 4.5	Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $
Claude Sonnet 4.5	Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ 5 Min. Cache-Schreibvorgang: 4,13 $ 1 Std. Cache-Schreibvorgang: 6,60 $ Cache-Treffer: 0,33 $ 5 Min. Batch-Cache-Schreibvorgang: 2,06 $ 1 Std. Batch-Cache-Schreibvorgang: 3,30 $ Batch-Cache-Treffer: 0,17 $	Eingabe: 6,60 $ Ausgabe: 24,75 $ 5 Min. Cache-Schreiben: 8,25 $ 1 Std. Cache-Schreiben: 13,20 $ Cache-Treffer: 0,66 $

asia-east1

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Haiku 4.5	Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Minuten): 1,375 $ Cache-Schreibvorgang (1 Stunde): 2,20 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang (5 Minuten): 0,688 $ Batch-Cache-Schreibvorgang (1 Stunde): 1,10 $ Batch-Cache-Treffer: 0,055 $

* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für langen Kontext berechnet.

Modelle mit einheitlichen Preisen in allen Regionen

Modell	Preis (/1M Tokens) < 200K Eingabetokens	Preis (/1M Tokens) >= 200K Eingabetokens
Claude Opus 4.1	Eingabe: 15 $ Ausgabe: 75 $ Batch-Eingabe: 7,50 $ Batch-Ausgabe: 37,50 $ Cache-Schreibvorgang (5 Minuten): 18,75 $ Cache-Schreibvorgang (1 Stunde): 30 $ Cache-Treffer: 1,50 $ Batch-Cache-Schreibvorgang (5 Minuten): 9,375 $ Batch-Cache-Schreibvorgang (1 Stunde): 15,00 $ Batch-Cache-Treffer: 0,75 $	–
Claude Opus 4	Eingabe: 15 $ Ausgabe: 75 $ Batch-Eingabe: 7,50 $ Batch-Ausgabe: 37,50 $ Cache-Schreibvorgang (5 Minuten): 18,75 $ Cache-Schreibvorgang (1 Stunde): 30 $ Cache-Treffer: 1,50 $ Batch-Cache-Schreibvorgang (5 Minuten): 9,375 $ Batch-Cache-Schreibvorgang (1 Stunde): 15,00 $ Batch-Cache-Treffer: 0,75 $	–
Claude Sonnet 4	Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ 5 Min. Cache-Schreibvorgang: 3,75 $ 1 Std. Cache-Schreibvorgang: 6,00 $ Cache-Treffer: 0,30 $ 5 Min. Batch-Cache-Schreibvorgang: 1,875 $ 1 Std. Batch-Cache-Schreibvorgang: 3,00 $ Batch-Cache-Treffer: 0,15 $
Claude 3 Haiku	Eingabe: 0,25 $ Ausgabe: 1,25 $ Cache-Schreibvorgang (5 Minuten): 0,30 $ Cache-Schreibvorgang (1 Stunde): 0,50 $ Cache-Treffer: 0,03 $	–
Claude 3.5 Haiku (eingestellt)	Eingabe: 0,80 $ Ausgabe: 4 $ Batch-Eingabe: 0,40 $ Batch-Ausgabe: 2 $ Cache-Schreiben (5 Min.): 1 $ Cache-Schreiben (1 Std.): 1,60 $ Cache-Treffer: 0,08 $ Batch-Cache-Schreiben: 0,50 $ Batch-Cache-Treffer: 0,04 $	–
Claude 3.7 Sonnet (eingestellt)	Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreiben: 3,75 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreiben: 1,875 $ Batch-Cache-Treffer: 0,15 $	–
Claude 3.5 Sonnet v2 (veraltet)	Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreiben: 3,75 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreiben: 1,875 $ Batch-Cache-Treffer: 0,15 $	–
Claude 3.5 Sonnet (veraltet)	Eingabe: 3 $ Ausgabe: 15 $ Cache-Schreibvorgang: 3,75 $ Cache-Treffer: 0,30 $	–
Claude 3 Opus (wird nicht mehr unterstützt)	Eingabe: 15 $ Ausgabe: 75 $ Cache-Schreibvorgang: 18,75 $ Cache-Treffer: 1,50 $	–

* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für langen Kontext berechnet.

Preise für Tools

Tool	Preis
Websuche-Anfrage	10$pro 1.000 Suchanfragen Unterstützte Modelle: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 und Claude Opus 4.

* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für langen Kontext berechnet.

Modelle von Deepseek

Modell	Preise
DeepSeek-V3.1	Eingabe: 0,60 $ / Million Tokens Ausgabe: 1,70 $ / Million Tokens Batch-Eingabe: 0,30 $ / Million Tokens Batch-Ausgabe: 0,85 $ / Million Tokens
DeepSeek-V3.2	Eingabe: 0,56 $ / Million Tokens Ausgabe: 1,68 $ / Million Tokens Batch-Eingabe: 0,28 $ / Million Tokens Batch-Ausgabe: 0,84 $ / Million Tokens
DeepSeek-R1 (0528)	Eingabe: 1,35 $ / Million Tokens Ausgabe: 5,40 $ / Million Tokens Batch-Eingabe: 0,675 $ / Million Tokens Batch-Ausgabe: 2,70 $ / Million Tokens
DeepSeek-OCR	Eingabe: 0,30 $ / Million Tokens (oder 0,0003 $/Seite) Ausgabe: 1,20 $ / Million Tokens (oder 0,00012 $/Seite)

Modelle von MiniMax

Modell	Preise
MiniMax-M2	Eingabe: 0,30 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens

Modelle von Moonshot

Modell	Preise
Kimi-K2-Thinking	Eingabe: 0,60 $ / Million Tokens Ausgabe: 2,50 $ / Million Tokens

Qwen-Modelle

Modell	Preise
Qwen3-Next-80B-Thinking	Eingabe: 0,15 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens
Qwen3-Next-80B-Instruct	Eingabe: 0,15 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens
Qwen3-Coder-480B-A35B-Instruct	Eingabe: 0,22 $ / Million Tokens Ausgabe: 1,80 $ / Million Tokens Cache-Treffer: 0,022 $ / Million Tokens Batch-Eingabe: 0,11 $ / Million Tokens Batch-Ausgabe: 0,90 $ / Million Tokens
Qwen3-235B-A22B-Instruct-2507	Eingabe: 0,22 $ / Million Tokens Ausgabe: 0,88 $ / Million Tokens Batch-Eingabe: 0,11 $ / Million Tokens Batch-Ausgabe: 0,44 $ / Million Tokens

Modelle von GLM

Modell	Preise
GLM-4,7 *	Eingabe: 0,60 $ / Million Tokens Ausgabe: 2,20 $ / Million Tokens

* Bis zum 28. Januar 2026 kostenlos verfügbar.

Modelle von OpenAI

Modell	Preise
gpt-oss-120b	Eingabe: 0,09 $ / Million Tokens Ausgabe: 0,36 $ / Million Tokens Batch-Eingabe: 0,045 $ / Million Tokens Batch-Ausgabe: 0,18 $ / Million Tokens
gpt-oss-20b	Eingabe: 0,07 $ / Million Tokens Ausgabe: 0,25 $ / Million Tokens Batch-Eingabe: 0,035 $ / Million Tokens Batch-Ausgabe: 0,125 $ / Million Tokens

Llama-Modelle von Meta

Modell	Preise
Llama 3.1 405B	Eingabe: 5,00 $ / Million Tokens Ausgabe: 16,00 $ / Million Tokens
Llama 3.3 70B	Eingabe: 0,72 $ / Million Tokens Ausgabe: 0,72 $ / Million Tokens Batch-Eingabe: 0,36 $ / Million Tokens Batch-Ausgabe: 0,36 $ / Million Tokens
Llama 4 Scout	Eingabe: 0,25 $ / Million Tokens Ausgabe: 0,70 $ / Million Tokens Batch-Eingabe: 0,125 $ / Million Tokens Batch-Ausgabe: 0,35 $ / Million Tokens
Llama 4 Maverick	Eingabe: 0,35 $ / Million Tokens Ausgabe: 1,15 $ / Million Tokens Batch-Eingabe: 0,175 $ / Million Tokens Batch-Ausgabe: 0,575 $ / Million Tokens

Modelle von Mistral AI

Modell	Preise
Mistral OCR (25.05)	Eingabe: 0,0005 $ / Million Tokens (oder 0,0005 $/Seite) Ausgabe: 0,0005 $ / Million Tokens (oder 0,0005 $/Seite)
Mistral Medium 3	Eingabe: 0,40 $ pro Million Tokens Ausgabe: 2,00 $ pro Million Tokens
Mistral Small 3.1 (25.03)	Eingabe: 0,10 $ / Million Tokens Ausgabe: 0,30 $ / Million Tokens
Mistral Large (24.11) (eingestellt)	Eingabe: 2,00 $ / Million Tokens Ausgabe: 6,00 $ / Million Tokens
Codestral 2	Eingabe: 0,30 $ / Million Tokens Ausgabe: 0,90 $ / Million Tokens
Codestral (25.01) (eingestellt)	Eingabe: 0,30 $ / Million Tokens Ausgabe: 0,90 $ / Million Tokens

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.

Vertrieb kontaktieren