Kosten für das Erstellen und Bereitstellen von KI-Modellen in Vertex AI
Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Ihnen werden nur Anfragen in Rechnung gestellt, die den Antwortcode 200 zurückgeben. Für Anfragen, die andere Antwortcodes zurückgeben, z. B. 4xx- und 5xx-Codes, werden die Eingabe und Ausgabe nicht berechnet.
Auf dieser Seite sind die Preise für die generative KI in Vertex AI beschrieben. Informationen zu allen anderen Preisen für Vertex AI, einschließlich der ML Platform- und MLOps-Dienste, finden Sie in der Preisübersicht zu Vertex AI.
Google-Modelle
Gemini 3
| Modell | Typ | Preis (/1M Tokens) <= 200K Eingabetokens | Preis (/1 Mio. Tokens) > 200.000 Eingabetokens | Preis (/1 Mio. Tokens) <= 200.000 im Cache gespeicherte Eingabetokens | Preis (/1 Mio. Tokens) > 200.000 im Cache gespeicherte Eingabetokens | Preis (/1M Tokens) <= 200.000 Eingabetokens mit Batch-API | Preis (/1 Mio. Tokens) > 200.000 Eingabetokens mit Batch-API |
|---|---|---|---|---|---|---|---|
| Gemini 3 Pro (Vorabversion) | |||||||
| Eingabe (Text, Bild, Video, Audio) | 2 $ | 4 $ | 0,2 $ | 0,40 $ | 1 $ | 2 $ | |
| Textausgabe (Antwort und Begründung) | 12 $ | 18 $ | – | – | 6 $ | 9 $ | |
| Bildausgabe** | 120 $ | – | – | – | 60 $ | – | |
| Fundierung mit der Google Suche und Webfundierung für Unternehmen |
Gemini 3 Pro umfasst 5.000 Suchanfragen pro Monat ohne Aufpreis. Suchanfragen, die diese Limits überschreiten, werden mit 14$pro 1.000 Suchanfragen berechnet. Eine von einem Kundenunternehmen an Gemini gesendete Anfrage kann zu einer oder mehreren Abfragen an die Google Suche (oder Web Grounding for Enterprise) führen. Ihnen wird jede einzelne Suchanfrage in Rechnung gestellt. Die Abrechnung beginnt am 5. Januar 2026. Für Eingabetokens, die durch die Fundierung mit der Google Suche oder die Web-Fundierung für Unternehmen bereitgestellt werden, fallen keine Kosten an. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen. |
||||||
| Fundierung mit Google Maps |
Gemini 3 Pro umfasst 5.000 Suchanfragen pro Monat ohne Aufpreis. Maps-Abfragen, die diese Limits überschreiten, werden mit 14$pro 1.000 Abfragen berechnet. Eine von einem Kundenunternehmen an Gemini gesendete Anfrage kann zu einer oder mehreren Anfragen an Google Maps führen. Ihnen wird jede einzelne ausgeführte Abfrage in Rechnung gestellt. Die Abrechnung beginnt am 5. Januar 2026 |
||||||
| Fundierung mit Ihren Daten | 2,5 $ pro 1.000 Anfragen. | ||||||
* Wenn der Kontext einer Abfrageeingabe länger als 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für lange Kontexte berechnet.
** Ein Ausgabebild mit 1K (1024 x 1024) und 2K (2048 x 2048) verbraucht 1.120 Bildausgabe-Tokens, was 0,134 $/generiertes Bild entspricht. Ein 4K-Bild (4096 × 4096) verbraucht 2.000 Tokens für die Bildausgabe, was 0,24 $/generiertes Bild entspricht.
Gemini 2.5
| Modell | Typ | Preis (/1M Tokens) <= 200K Eingabetokens | Preis (/1 Mio. Tokens) > 200.000 Eingabetokens | Preis (/1 Mio. Tokens) <= 200.000 im Cache gespeicherte Eingabetokens | Preis (/1 Mio. Tokens) > 200.000 im Cache gespeicherte Eingabetokens | Preis (/1M Tokens) <= 200.000 Eingabetokens mit Batch-API | Preis (/1 Mio. Tokens) > 200.000 Eingabetokens mit Batch-API |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | |||||||
| Eingabe (Text, Bild, Video, Audio) | 1,25 $ | 2,50 $ | 0,125 $ | $0.250 | 0,625 $ | 1,25 $ | |
| Textausgabe (Antwort und Begründung) | 10 $ | 15 $ | – | – | 5 $ | 7,50 $ | |
| Gemini 2.5 Pro Computer Use-Preview |
|||||||
| Eingabe (Text, Bild, Video, Audio) | 1,25 $ | 2,50 $ | – | – | – | – | |
| Textausgabe (Antwort und Begründung) | 10,00 $ | 15,00 € | – | – | – | – | |
Gemini 2.5 Flash |
|||||||
| Eingabe (Text, Bild, Video) | 0,30 $ | 0,30 $ | 0,030 $ | 0,030 $ | 0,15 $ | 0,15 $ | |
| Audioeingabe | 1 $ | 1 $ | 0,100 $ | 0,100 $ | 0,50 $ | 0,50 $ | |
| Textausgabe (Antwort und Begründung) | 2,50 $ | 2,50 $ | – | – | 1,25 $ | 1,25 $ | |
| Bildausgabe*** | 30 $ | 30 $ | – | – | 15 $ | 15 $ | |
Gemini 2.5 Flash Live API |
|||||||
| 1 Mio. Tokens für Eingabetext | 0,50 $ | 0,50 $ | – | – | – | – | |
| 1 Mio. Eingabe-Audiotokens | 3 $ | 3 $ | – | – | – | – | |
| 1 Mio. Eingabetokens für Videos/Bilder | 3 $ | 3 $ | – | – | – | – | |
| 1 Mio. Ausgabetext-Tokens | 2 $ | 2 $ | – | – | – | – | |
| 1 Mio. Ausgabetokens für Audio | 12 $ | 12 $ | – | – | – | – | |
Gemini 2.5 Flash Lite |
|||||||
| Eingabe (Text, Bild, Video) | 0,1 $ | 0,1 $ | 0,010 $ | 0,010 $ | 0,05 $ | 0,05 $ | |
| Audioeingabe | 0,30 $ | 0,30 $ | 0,030 $ | 0,030 $ | 0,15 $ | 0,15 $ | |
| Textausgabe (Antwort und Begründung) | 0,40 $ | 0,40 $ | – | – | 0,2 $ | 0,2 $ | |
Fundierung mit der Google Suche |
Gemini 2.0 Flash, 2.5 Flash und 2.5 Flash-Lite bieten insgesamt 1.500 gegroundete Prompts pro Tag ohne Aufpreis. Gemini 2.5 Pro umfasst 10.000 gegroundete Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche stellt**. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen. |
||||||
Webfundierung für Unternehmen |
45$pro 1.000 Prompts mit Grounding. Ein Prompt mit Verankerung ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise richtet**. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||||||
| Fundierung mit Ihren Daten | 2,5 $ pro 1.000 Anfragen. | ||||||
| Fundierung mit Google Maps | 25$pro 1.000 gegroundete Prompts. Ein geerdeter Prompt ist eine an Gemini gesendete Anfrage, die mindestens eine Abfrage an Google Maps enthält. |
||||||
* Wenn der Kontext einer Abfrageeingabe länger als 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Tarifen für lange Kontexte abgerechnet.
** Grounding mit der Google Suche und Web Grounding für Unternehmen werden nur dann abgerechnet, wenn ein Prompt erfolgreich Web-Ergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Grounding-Unterstützung aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.
*** Ein Bild mit 1024 × 1024 Pixeln verbraucht 1290 Tokens. Die Anzahl der Tokens pro Bild variiert je nach Bildauflösung. Weitere Informationen zum Berechnen von Tokens finden Sie in unserer Dokumentation.
**** Die Abrechnung für die Computernutzung verwendet die Gemini 2.5 Pro-SKU, um die Kosten für die Computernutzung aufzuschlüsseln und Abrechnungstags anzuwenden. Weitere Informationen
- Abrechnung des Kontextfensters für LiveAPI-Sitzungen: Ihnen werden pro Runde alle Tokens in Rechnung gestellt, die im Kontextfenster der Sitzung vorhanden sind. Das Sitzungskontextfenster enthält neue Tokens (aktueller Zug) und alle angesammelten Tokens aus vorherigen Zügen. Das bedeutet, dass Tokens aus früheren Runden neu verarbeitet und in jeder neuen Runde berücksichtigt werden, bis zur konfigurierten Größe des Kontextfensters. Ein „Turn“ ist eine Nutzereingabe und die Antwort des Modells.
- Proaktiver Audiomodus: Wenn dieser Modus aktiviert ist, werden Eingabetokens berechnet, während die LiveAPI zuhört. Ausgabetokens werden nur berechnet, wenn die API antwortet.
- Wenn die Audio-zu-Text-Transkription aktiviert ist, werden alle für die Transkription generierten Text-Tokens zum Ausgabepreis für Text-Tokens berechnet.
Gemini 2.0
Gemini 2.0 wird auf der Grundlage von Tokens abgerechnet. Wenn Sie die Anzahl der Eingabetokens in Ihrer Anfrage berechnen möchten, bevor Sie die Anfrage senden, können Sie den SDK-Tokenizer oder die countTokens API verwenden. Wenn Ihre Anfrage mit einem 400- oder 500-Fehler fehlschlägt, werden Ihnen die verwendeten Tokens nicht in Rechnung gestellt.
Mit dem Schalter in der Preistabelle können Sie die tokenbasierten Preise mit den modalitätsbasierten Preisen vergleichen.
Tokenbasierte Preise
| Modell | Typ | Preis | Preis mit Batch API | ||
|---|---|---|---|---|---|
Gemini 2.0 Flash |
|||||
| 1 Mio. Eingabetokens | 0,15 $ | 0,075 $ | |||
| 1 Mio. Eingabe-Audiotokens | 1,00 $ | 0,50 $ | |||
| 1 Mio. Ausgabetext-Tokens | 0,60 $ | 0,30 $ | |||
| Abstimmung für 1 Mio. Trainingstokens | 3,00 $ | ||||
Bildgenerierung mit Gemini 2.0 Flash |
|||||
| 1 Mio. Eingabetokens | 0,15 $ | ||||
| 1 Mio. Eingabe-Audiotokens | 1,00 $ | ||||
| 1 Mio. Eingabevideotokens | 3 $ | ||||
| 1 Mio. Ausgabetext-Tokens | 0,60 $ | ||||
| 1 Mio. Ausgabetokens für Bilder | 30,00 $ | ||||
Gemini 2.0 Flash Live API |
|||||
| 1 Mio. Tokens für Eingabetext | 0,50 $ | ||||
| 1 Mio. Eingabe-Audiotokens | 3 $ | ||||
| 1 Mio. Eingabetokens für Videos/Bilder | 3 $ | ||||
| 1 Mio. Ausgabetext-Tokens | 2 $ | ||||
| 1 Mio. Ausgabetokens für Audio | 12 $ | ||||
Gemini 2.0 Flash Lite |
|||||
| 1 Mio. Eingabetokens | 0,075 $ | 0,0375 $ | |||
| 1 Mio. Eingabe-Audiotokens | 0,075 $ | 0,0375 $ | |||
| 1 Mio. Ausgabetext-Tokens | 0,30 $ | 0,15 $ | |||
| Abstimmung für 1 Mio. Trainingstokens | 1,00 $ | ||||
Fundierung mit der Google Suche |
Gemini 2.0 Flash und 2.5 Flash bieten insgesamt 1.500 geankerte Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||||
Webfundierung für Unternehmen |
45$pro 1.000 Prompts mit Grounding. Ein Prompt mit Verankerung ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Gebühr für einen geerdeten Prompt erhoben. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||||
| Fundierung mit Ihren Daten | 2,5 $ pro 1.000 Anfragen ab dem 16. Juni 2025. | ||||
Fundierung mit Google Maps |
Gemini-Modelle umfassen eine Reihe von täglich geerdeten Prompts ohne Aufpreis: Grounded Prompts, die diese Limits überschreiten, werden mit 25$pro 1.000 Grounded Prompts berechnet. Ein verankerter Prompt ist eine an Gemini gesendete Anfrage, die mindestens eine Abfrage an Google Maps enthält. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||||
Modalitätsbasierte Preise
Die unten aufgeführten Preise für Modalitäten basieren auf durchschnittlichen Anwendungsfällen und dienen nur als Referenz. Die tatsächliche Abrechnung basiert nur auf Tokens:
- 4 Zeichen ergeben ungefähr 1 Text-Token einschließlich Leerzeichen.
- Ein Bild mit 1.024 × 1.024 Pixeln verbraucht 1.290 Tokens. Die Anzahl der Tokens pro Bild variiert je nach Bildauflösung. Weitere Informationen zum Berechnen von Tokens finden Sie in unserer Dokumentation.
- Die Videoeingabe verbraucht 258 Tokens pro Sekunde bei einer Abtastrate von einem Frame pro Sekunde. Bei Videos mit Audio werden sowohl Video- als auch Audio-Tokens abgerechnet.
- Audioeingaben verbrauchen 25 Tokens pro Sekunde ohne Zeitstempel.
| Modell | Typ | Preis | Preis mit Batch API |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Text eingeben ($/Mio. Zeichen) | 0,0375 $ | 0,01875 $ | |
| Eingabebild (USD/Bild) | 0,0001935 $ | 0,00009675 $ | |
| Eingabevideo ($/Sek.) | 0,0000387$ | 0,00001935 $ | |
| Eingabeaudio ($/Sek.) | 0,000025 $ | 0,0000125 $ | |
| Ausgabetext ($/Mio. Zeichen) | 0,15 $ | 0,075 $ | |
Bildgenerierung mit Gemini 2.0 Flash |
|||
| Text eingeben ($/Mio. Zeichen) | 0,0375 $ | ||
| Eingabebild (USD/Bild) | 0,0001935 $ | ||
| Eingabevideo ($/Sek.) | 0,0000387$ | ||
| Eingabeaudio ($/Sek.) | 0,000025 $ | ||
| Ausgabetext ($/Mio. Zeichen) | 0,15 $ | ||
| Ausgabebild ($/Bild) | 0,04 $ | ||
Gemini 2.0 Flash Lite |
|||
| Text eingeben ($/Mio. Zeichen) | 0,01875 $ | 0,009375 $ | |
| Eingabebild (USD/Bild) | 0,00009675 $ | 0,000048375 $ | |
| Eingabevideo ($/Sek.) | 0,00001935 $ | 0,000009675 $ | |
| Eingabeaudio ($/Sek.) | 0,000001875 $ | 0,000000938 $ | |
| Ausgabetext ($/Mio. Zeichen) | 0,075 $ | 0,0375 $ | |
Fundierung mit der Google Suche |
Gemini 2.0 Flash und 2.5 Flash bieten insgesamt 1.500 geankerte Prompts pro Tag ohne Aufpreis. Grounded Prompts, die diese Limits überschreiten, werden mit 35$pro 1.000 Grounded Prompts berechnet. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||
Webfundierung für Unternehmen |
45$pro 1.000 Prompts mit Grounding. Ein geerdeter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding for Enterprise* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenn Sie mehr als 1 Million blockierte Prompts pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||
* Preise sind in US-Dollar ($) angegeben.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* Trainings-Tokens werden anhand der Gesamtzahl der Tokens in Ihrem Trainings-Dataset berechnet, multipliziert mit der Anzahl der Epochen.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Die Verankerung mit der Google Suche und die Webverankerung für Unternehmen werden nur dann abgerechnet, wenn ein Prompt erfolgreich Webergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Verankerung aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.
* Gemini 2.0 Flash Live API: 25 Tokens pro Sekunde Audio (Ein-/Ausgabe), 258 Tokens pro Sekunde Video (Eingabe). Die Fundierung mit der Google Suche bleibt kostenlos, solange sich die Gemini 2.0 Flash Live API in der Vorschau befindet.
- Abrechnung des Kontextfensters für LiveAPI-Sitzungen: Ihnen werden pro Runde alle Tokens in Rechnung gestellt, die im Kontextfenster der Sitzung vorhanden sind. Das Sitzungskontextfenster enthält neue Tokens (aktueller Zug) und alle angesammelten Tokens aus vorherigen Zügen. Das bedeutet, dass Tokens aus früheren Runden neu verarbeitet und in jeder neuen Runde berücksichtigt werden, bis zur konfigurierten Größe des Kontextfensters. Ein „Turn“ ist eine Nutzereingabe und die Antwort des Modells.
- Wenn die Audio-zu-Text-Transkription aktiviert ist, werden alle für die Transkription generierten Text-Tokens zum Ausgabetarif für Text-Tokens abgerechnet.
Vertex AI Model Optimizer – Preise (experimentell)*
Der Vertex AI Model Optimizer vereinfacht die Nutzung von Gemini für Unternehmenskunden, indem er einen einzelnen Meta-Endpunkt für Gemini-Modellanfragen bereitstellt. Kunden, die diesen Dienst nutzen, müssen nicht angeben, ob sie Flash, Pro oder eine bestimmte Version verwenden möchten. Stattdessen geben sie einfach eine konfigurierbare Einstellung (Kosten, Qualität oder Gleichgewicht) an, um ihre Präferenzen anzugeben. Der Modelloptimierer wendet dann die richtige Intelligenzebene für die Aufgabe an, indem er jede Abfrage an das am besten geeignete Modell sendet.
Für Vertex AI Model Optimizer gilt eine dynamische Preisgestaltung. Das bedeutet, dass der durchschnittliche Preis pro Token vom Intelligenzgrad des Modells abhängt, das zur Erledigung der Aufgabe verwendet wird. Daher werden unten Preisbeispiele aufgeführt, um wahrscheinliche Szenarien basierend auf Ihrer Konfigurationseinstellung zu veranschaulichen (siehe Tabellen unten). Model Optimizer-SKUs sind 1-Dollar-SKUs, die als Einkaufseinheit für die Abrechnung dienen. Die Abrechnung erfolgt weiterhin nutzungsbasiert, nachdem Sie die Modelle verwendet haben.
| I/O-Verhältnis von 5:1 | Beispiel 1: Chatbot |
HINWEIS: Diese Bereiche sind nicht garantiert, die Ergebnisse können je nach Kunde variieren. | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Kundenpräferenz | Anzahl der an das MO gesendeten Eingabetokens | An Marketingziele gesendete Kundenausgabetokens | Durchschnittlicher Eingabepreis pro Million Tokens (hoher Bereich) | Durchschnittlicher Ausgabepreis pro Million Tokens (hoher Bereich) | Durchschnittlicher Eingabepreis pro Million Tokens (niedriger Bereich) | Durchschnittlicher Ausgabepreis pro Million Tokens (niedriger Bereich) | |||||
| Kosten | 10.000.000 | 2.000.000 | 0,63 $ | 2,50 $ | 0,16 $ | 0,63 $ | |||||
| Ausgeglichen | 10.000.000 | 2.000.000 | 1,26 $ | 5,00 $ | 0,63 $ | 2,50 $ | |||||
| Qualität | 10.000.000 | 2.000.000 | 1,89 $ | 7,50 $ | 1,26 $ | 5,00 $ | |||||
| I/O-Verhältnis von 1:20 | Beispiel 2: Erstellung von Inhalten | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Kundenpräferenz | Anzahl der an das MO gesendeten Eingabetokens | An Marketingziele gesendete Kundenausgabetokens | Durchschnittlicher Eingabepreis pro Million Tokens (hoher Bereich) | Durchschnittlicher Ausgabepreis pro Million Tokens (hoher Bereich) | Durchschnittlicher Eingabepreis pro Million Tokens (niedriger Bereich) | Durchschnittlicher Ausgabepreis pro Million Tokens (niedriger Bereich) | |||||
| Kosten | 1.000.000 | 20.000.000 | 0,63 $ | 2,50 $ | 0,16 $ | 0,63 $ | |||||
| Ausgeglichen | 1.000.000 | 20.000.000 | 1,26 $ | 5,00 $ | 0,63 $ | 2,50 $ | |||||
| Qualität | 1.000.000 | 20.000.000 | 1,89 $ | 7,50 $ | 1,26 $ | 5,00 $ | |||||
Andere Gemini-Modelle
Alle Gemini-Modelle außer Gemini 2.0 und Gemini 2.5 werden nach Modalitäten wie Zeichen, Bilder und Video-/Audiosekunden abgerechnet. Texteingaben werden pro 1.000 Eingabezeichen (Prompt) und pro 1.000 Ausgabezeichen (Antwort) abgerechnet. Alle Zeichen werden durch UTF-8-Codepunkte gezählt. Leerzeichen werden nicht berücksichtigt. Das Ergebnis sind ungefähr 4 Zeichen pro Token. Vorhersageanfragen, die zu gefilterten Antworten führen, werden nur für die Eingabe abgerechnet. Am Ende jedes Abrechnungszeitraums werden Bruchteile von einem Cent (0, 01 $) auf einen Cent aufgerundet. Die Medieneingabe wird pro Bild oder Sekunde (Video) berechnet. Wenn Ihre Anfrage mit einem 400- oder 500-Fehler fehlschlägt, werden Ihnen die verwendeten Tokens nicht in Rechnung gestellt.
| Modell | Funktion | Typ | Preis ( =< 128.000 Eingabetokens) |
Preis ( > 128.000 Eingabetokens) |
||
|---|---|---|---|---|---|---|
| Gemini 1.5 Flash | Multimodal | Bildeingabe Videoeingabe Texteingabe Audioeingabe |
0,00002 $ / Bild 0,00002 $ / Sekunde 0,00001875 $ / 1.000 Zeichen 0,000002 $ / Sekunde |
0,00004 $ / Bild 0,00004 $ / Sekunde 0,0000375 $ / 1.000 Zeichen 0,000004 $ / Sekunde |
||
| Textausgabe | 0,000075 $ / 1.000 Zeichen | 0,00015 $ / 1.000 Zeichen | ||||
| Abstimmung* | Trainingstoken | 8 $ pro 1 Mio. Tokens | ||||
| Gemini 1.5 Pro | Multimodal | Bildeingabe Videoeingabe Texteingabe Audioeingabe |
0,00032875 $ / Bild 0,00032875 $ / Sekunde 0,0003125 $ / 1.000 Zeichen 0,00003125 $ / Sekunde |
0,0006575 $ / Bild 0,0006575 $ / Sekunde 0,000625 $ / 1.000 Zeichen 0,0000625 $ / Sekunde |
||
| Textausgabe | 0,00125 $ / 1.000 Zeichen | 0,0025 $ / 1.000 Zeichen | ||||
| Abstimmung* | Trainingstoken | 80 $ pro 1 Mio. Tokens | ||||
| Gemini 1.0 Pro | Multimodal | Bildeingabe Videoeingabe Texteingabe |
0,0025 $ / Bild 0,002 $ / Sekunde 0,000125 $ / 1.000 Zeichen |
|||
| Textausgabe | 0,000375 $ / 1.000 Zeichen | |||||
| Fundierung mit der Google Suche | Text | 35$pro 1.000 verankerten Prompts. Ein fundierter Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Suchanfragen an die Google Suche* enthält. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen. |
||||
| Webfundierung für Unternehmen | Text | 45$pro 1.000 Prompts mit Grounding. Ein Grounding-Prompt ist eine an Gemini gesendete Anfrage, die eine oder mehrere Abfragen an Web Grounding für Unternehmen* stellt. Auch wenn mehrere Suchanfragen an die Google Suche gesendet werden, wird nur eine Anfrage mit Grounding berechnet. Wenden Sie sich an Ihr Account-Management-Team, wenn Sie mehr als 1 Million verankerter Prompts pro Tag benötigen. |
||||
| Fundierung mit Ihren Daten | Text | 2,5 $ pro 1.000 Anfragen ab dem 16. Juni 2025. |
||||
* Preise sind in US-Dollar ($) angegeben.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* Wenn ein Abfragekontext länger als 128.000 Tokens ist, werden alle Tokens zu den Preisen für lange Kontexte abgerechnet.
* Gemini-Modelle sind im Batch-Modus mit einem Rabatt von 50% verfügbar.
* Gemini 1.0 Pro unterstützt nur ein Kontextfenster mit bis zu 32.000 Tokens.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Grounding mit der Google Suche und Web Grounding für Unternehmen werden nur dann abgerechnet, wenn ein Prompt erfolgreich Webergebnisse zurückgibt (d.h. Ergebnisse, die mindestens eine URL zur Grounding-Unterstützung aus dem Web enthalten). Die Gebühren für die Nutzung von Gemini-Modellen werden separat berechnet.
Imagen
Mit Imagen in Vertex AI können Sie neue Bilder generieren und Bilder basierend auf den von Ihnen bereitgestellten Text-Prompts bearbeiten oder nur Teile von Bildern mit einem Maskenbereich, den Sie zusammen mit einer Reihe anderer Funktionen definieren, bearbeiten.
| Modell | Feature | Beschreibung | Eingabe | Ausgabe | Preis |
|---|---|---|---|---|---|
| Imagen 4 Ultra | Bildgenerierung | Image generieren | Text-Prompt | Bild | 0,06 $ pro Bild |
| Imagen 4 | Auflösung wird erhöht | Auflösung eines generierten Bildes auf 2.000, 3.000 und 4.000 erhöhen | Bild | Bild | 0,06 $ pro Bild |
| Imagen 4 | Bildgenerierung | Image generieren | Text-Prompt | Bild | 0,04 $ pro Bild |
| Imagen 4 Fast | Bildgenerierung | Image generieren | Text-Prompt | Bild | 0,02 $ pro Bild |
| Imagen 3 | Bildgenerierung | Bild generieren Bild bearbeiten Bild anpassen |
Text-Prompt | Bild | 0,04 $ pro Bild |
| Imagen 3 Fast | Bildgenerierung | Image generieren | Text-Prompt | Bild | 0,02 $ pro Bild |
| Imagen 2, Imagen 1 | Bildgenerierung | Image generieren | Text-Prompt | Bild | 0,020 $ pro Bild |
| Imagen 2, Imagen 1 | Bildbearbeitung | Bild mit maskenfreiem Ansatz oder Maskenansatz bearbeiten | Bild-/Text-Prompt | Bild | 0,020 $ pro Bild |
| Imagen 1 | Auflösung wird erhöht | Auflösung eines generierten Bildes auf 2.000 und 4.000 erhöhen | Bild | Bild | 0,003 $ pro Bild |
| Imagen 1 | Abstimmung | Aktivieren Sie einen "Betreff", der vom Nutzer für die Verwendung von Imagen-Prompts bereitgestellt wurde (weniger Aufnahmetraining). | Betreff mit Textkennung und 4–8 Bildern pro Betreff | Feinabstimmung des Modells (nach dem Training mit vom Nutzer bereitgestellten Betreff) | $ pro Knotenstunde Preise für benutzerdefiniertes Vertex AI-Training |
| Imagen | Visuelle Untertitel | Kurze oder lange Textuntertitel für ein Bild generieren | Bild | Textunterschrift | 0,0015 $ pro Bild |
| Imagen | Visual Question Answering | Eine Antwort basierend auf einer Frage bereitstellen, die auf ein Bild verweist | Bild-/Text-Prompt | Textantwort | 0,0015 $ pro Bild |
| Imagen | Produkt-Rekontextualisierung | Produkte in einer neuen Szene neu in Szene setzen | 1–3 Bilder desselben Produkts und ein Text-Prompt, der die gewünschte Szene beschreibt | Bild | 0,12 $ pro Bild |
| Virtuelles Anprobieren mit Vertex | Bilder von Personen in unterschiedlicher Kleidung erstellen | 1 Bild einer Person und 1 Bild von Kleidung | Bild | 0,06 $ pro Bild |
Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Veo
Veo erstellt Videos in unglaublich hoher Qualität zu einer Vielzahl von Themen und in verschiedenen Stilen. Dabei werden die physikalischen Gesetze und die Nuancen menschlicher Bewegungen und Mimik besser verstanden.
| Modell | Funktion | Beschreibung | Eingabe | Ausgabe | Maximale Auflösung | Preis |
|---|---|---|---|---|---|---|
| Veo 3.1 | Video- und Audiogenerierung | Hochwertige Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video und Audio | 720p, 1080p | 0,40 $/Sekunde |
| Veo 3.1 | Videogenerierung | Hochwertige Videos aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video | 720p, 1080p | 0,20 $/Sekunde |
| Veo 3.1 Fast | Video- und Audiogenerierung | Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild schneller generieren | Text-/Bild-Prompt | Video und Audio | 720p, 1080p | 0,15 $/Sekunde |
| Veo 3.1 Fast | Videogenerierung | Schneller Videos aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video | 720p, 1080p | 0,10 $/Sekunde |
| Veo 3 | Video- und Audiogenerierung | Hochwertige Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video und Audio | 720p, 1080p | 0,40 $/Sekunde |
| Veo 3 | Videogenerierung | Hochwertige Videos aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video | 720p, 1080p | 0,20 $/Sekunde |
| Veo 3 Fast | Video- und Audiogenerierung | Videos mit synchronisierter Sprache/Soundeffekten aus einem Text-Prompt oder Referenzbild schneller generieren | Text-/Bild-Prompt | Video und Audio | 720p, 1080p | 0,15 $/Sekunde |
| Veo 3 Fast | Videogenerierung | Schneller Videos aus einem Text-Prompt oder Referenzbild generieren | Text-/Bild-Prompt | Video | 720p, 1080p | 0,10 $/Sekunde |
| Veo 2 | Videogenerierung | Videos aus einem Text-Prompt oder einem Referenzbild generieren | Text-/Bild-Prompt | Video | 720p | 0,50 $/Sekunde |
| Veo 2 | Erweiterte Funktionen | Videos durch Interpolation von Anfangs- und Endframes generieren, generierte Videos verlängern und Kamerasteuerung anwenden | Text-/Bild-/Video-Prompt | Video | 720p | 0,50 $/Sekunde |
Lyria
Lyria 2 bietet die Möglichkeit, hochwertige Instrumentalmusik zu generieren, die sich ideal für anspruchsvolle Kompositionen und detaillierte kreative Erkundungen eignet, bei denen es auf eine nuancierte Ausgabe ankommt.
| Modell | Funktion | Beschreibung | Eingabe | Ausgabe | Preis |
|---|---|---|---|---|---|
| Lyria 2 | Musikgenerierung | Musik aus einem Text-Prompt generieren | Text-Prompt | Musik | 0,06 $ pro 30 Sekunden |
Kosten für das Einbetten von KI-Anwendungen verstehen
| Modell | Typ | Region | Preis pro 1.000 Eingabetokens |
|---|---|---|---|
| Gemini Embedding | Eingabe | Global |
|
| Ausgabe | Global |
|
| Modell | Typ | Region | Preis pro 1.000 Zeichen |
|---|---|---|---|
| Einbettungen für Text (ohne Gemini Embedding) |
Eingabe | Global |
|
| Ausgabe | Global |
|
| Modell | Feature | Beschreibung | Eingabe | Ausgabe | Preis |
|---|---|---|---|---|---|
| multimodalembedding | Einbettungen für multimodale Attribute: Text | Einbettungen mit Text als Eingabe generieren | Text | Einbettungen | 0,0002 $ pro 1.000 Zeichen Eingabe |
| Einbettungen für multimodale Ausdrücke: Bild | Einbettungen mit Bild als Eingabe generieren | Bild | Einbettungen | 0,0001 $ pro Bildeingabe | |
| Einbettungen für multimodale Konfigurationen: Video Plus | Video Plus | Video | Einbettungen (bis zu 15 Einbettungen pro Minute Video) | 0,0020 $ pro Sekunde Video | |
| Einbettungen für multimodale Ausdrücke: Video Standard | Video – Standard | Video | Einbettungen (bis zu 8 Einbettungen pro Minute Video) | 0,0010 $ pro Sekunde Video | |
| Einbettungen für multimodale Ausdrücke: Video – Grundlagen | Video Essentials | Video | Einbettungen (bis zu 4 Einbettungen pro Minute Video) | 0,0005 $ pro Sekunde Video |
| Open-Source-Modell | Typ | Preis pro 1.000 Eingabetokens |
|---|---|---|
| multilingual-e5-small | Eingabe: Ausgabe: Batcheingabe: Batchausgabe: |
Onlineanfragen: 0,000015 $ Onlineanfragen: kostenlos Batchanfragen: 0,0000075 $ Batchanfragen: kostenlos |
| multilingual-e5-large | Eingabe: Ausgabe: Batcheingabe: Batchausgabe: |
Onlineanfragen: 0,000025 $ Onlineanfragen: kostenlos Batchanfragen: 0,0000125 $ Batchanfragen: kostenlos |
Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Preise für die Codevervollständigung von Vertex AI
Die Generative AI in Vertex AI wird nach 1.000 Zeichen Eingabe (Eingabeaufforderung) und 1.000 Zeichen Ausgabe (Antwort) abgerechnet. Alle Zeichen werden durch UTF-8-Codepunkte gezählt. Leerzeichen werden nicht berücksichtigt. Während der Vorschauphase werden Gebühren zu 100 % reduziert. Vorhersageanfragen, die zu gefilterten Antworten führen, werden nur für die Eingabe abgerechnet. Am Ende jedes Abrechnungszeitraums werden Bruchteile von einem Cent (0,01 $) auf einen Cent aufgerundet.
| Modell | Typ | Region | Preis pro 1.000 Zeichen |
|---|---|---|---|
| Codey für Codevervollständigung | Eingabe | Global |
|
| Ausgabe | Global |
|
Preise sind in US-Dollar ($) angegeben. Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Übersetzen (Text)
Verwenden Sie die Vertex AI API und das Übersetzungs-LLM, um Text zu übersetzen. LLM-Übersetzungen klingen flüssiger und natürlicher als Übersetzungen mit klassischen Modellen, unterstützen aber weniger Sprachen (Weitere Informationen).
| Modell | Methode | Nutzung | Preis pro 1 Million Zeichen |
|---|---|---|---|
| LLM | Textübersetzung* | Anzahl der Eingabezeichen pro Monat |
10 $ pro 1 Million Zeichen* |
| Anzahl der Ausgabetokens pro Monat |
10 $ pro 1 Million Zeichen* |
Preise sind in US-Dollar ($) angegeben.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* Preis pro Zeichen, das vom Modell verarbeitet wird. Weitere Informationen zu gezählten Zeichen finden Sie unter Gebührenpflichtige Zeichen.
Preis für Context Cache Storage für explizites Caching
| Modell | Funktion | Typ | Preis (/1M Tokens) <= 200K Eingabetokens |
Preis (/1 Mio. Tokens) > 200.000 Eingabetokens |
|---|---|---|---|---|
| Gemini 3 Pro | Kontext-Cache-Speicher | Eingabe (Text, Bild, Video, Audio) | 4,50 $ (/Mio. Tokens/Std.) | 4,50 $ (/Mio. Tokens/Std.) |
| Gemini 2.5 Pro | Kontext-Cache-Speicher | Eingabe (Text, Bild, Video, Audio) | 4,50 $ (/Mio. Tokens/Std.) | 4,50 $ (/Mio. Tokens/Std.) |
| Gemini 2.5 Flash | Kontext-Cache-Speicher | Eingabe (Text, Bild, Video, Audio) | 1 $ (/Mio. Tokens/Std.) | 1 $ (/Mio. Tokens/Std.) |
| Gemini 2.5 Flash Lite | Kontext-Cache-Speicher | Eingabe (Text, Bild, Video, Audio) | 1 $ (/Mio. Tokens/Std.) | 1 $ (/Mio. Tokens/Std.) |
Gemini 2.0-Modelle
Tokenbasierte Preise
Modell |
Typ |
Speicher (M Token-Stunden) |
Preis |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 1 Mio. Eingabetokens | 1,00 $ | 0,0375 $ | |
| 1 Mio. Eingabe-Audiotokens | 1,00 $ | 0,25 $ | |
| 1 Mio. Ausgabetext-Tokens | – | – | |
Gemini 2.0 Flash Lite |
|||
| 1 Mio. Eingabetokens | 1,00 $ | 0,01875 $ | |
| 1 Mio. Eingabe-Audiotokens | 1,00 $ | 0,01875 $ | |
| 1 Mio. Ausgabetext-Tokens | – | – |
Modalitätsbasierte Preise
Die unten aufgeführten Preise für Modalitäten basieren auf durchschnittlichen Anwendungsfällen und dienen nur als Referenz. Die tatsächliche Abrechnung basiert nur auf Tokens:
- 4 Zeichen ergeben ungefähr 1 Text-Token einschließlich Leerzeichen.
- Ein Bild mit 1.024 × 1.024 Pixeln verbraucht 1.290 Tokens. Die Anzahl der Tokens pro Bild variiert je nach Bildauflösung. Weitere Informationen zum Berechnen von Tokens finden Sie in unserer Dokumentation.
- Die Videoeingabe verbraucht 258 Tokens pro Sekunde bei einer Abtastrate von einem Frame pro Sekunde. Bei Videos mit Audio werden sowohl Video- als auch Audio-Tokens abgerechnet.
- Audioeingaben verbrauchen 25 Tokens pro Sekunde ohne Zeitstempel.
Modell |
Typ |
Speicher (Modalität-Stunde) |
Preis |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Text eingeben ($/Mio. Zeichen) | 0,25 $ | 0,009375 $ | |
| Eingabebild (USD/Bild) | 0,00129 $ | 0,000048375 $ | |
| Eingabevideo ($/Sek.) | 0,000258 $ | 0,000009675 $ | |
| Eingabeaudio ($/Sek.) | 0,000025 $ | 0,00000625 $ | |
| Ausgabetext ($/Mio. Zeichen) | – | – | |
Gemini 2.0 Flash Lite |
|||
| Text eingeben ($/Mio. Zeichen) | 0,25 $ | 0,0046875 $ | |
| Eingabebild (USD/Bild) | 0,00129 $ | 0,0000241875 $ | |
| Eingabevideo ($/Sek.) | 0,000258 $ | 0,000009675 $ | |
| Eingabeaudio ($/Sek.) | 0,000258 $ | 0,0000048375 $ | |
| Ausgabetext ($/Mio. Zeichen) | – | – | |
Fundierung mit der Google Suche |
Gemini 2.0 Flash umfasst bis zu 1.500 Anfragen pro Tag ohne Aufpreis. Anfragen mit Verankerung über 1.500 pro Tag werden mit 35 $pro 1.000 Anfragen berechnet (bis zu 1 Million Anfragen pro Tag). Wenn Sie mehr als 1 Million Anfragen pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||
Webfundierung für Unternehmen |
45 $ pro 1.000 Anfragen (bis zu 1 Million Anfragen pro Tag) ab dem 5. Mai 2025. Wenn Sie mehr als 1 Million Anfragen pro Tag benötigen, wenden Sie sich bitte an Ihr Account-Management-Team. |
||
* Preise sind in US-Dollar ($) angegeben.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
* PDFs werden als Bildeingabe abgerechnet, wobei eine PDF-Seite einem Bild entspricht.
* Der Preis für Vorhersagen für den Endpunkt des abgestimmten Modells ist derselbe wie für das Basismodell.
* Die Verankerung mit der Google Suche wird nur für Anfragen abgerechnet, die Ergebnisse mit mindestens einer Verankerungs-Support-URL aus dem Web zurückgeben. Es fallen die regulären Gebühren für die Nutzung von Gemini-Modellen an.
Bereitgestellter Durchsatz
Bereitgestellter Durchsatz sichert den Durchsatz für Ihre Anforderungen an generative KI und wird über Skalierungseinheiten der generativen KI oder GSUs abgerechnet. Hier finden Sie weitere Informationen zum Durchsatz der einzelnen GSUs. Nutzen Sie auch unseren Online-Schätzer hier.
| Dauer | Preis pro GSU | Pro |
|---|---|---|
| 1 Woche | 1.200 $ | Woche |
| Mindestlaufzeit 1 Monat | 2.700 $ | Monat |
| 3 Monate | 2.400 $ | Monat |
| Zusicherung für 1 Jahr | 2.000 $ | Monat |
Beispiel für die Kostenberechnung
Ein Nutzer muss sicherstellen,dass er 10 Abfragen pro Sekunde (QPS) einer Abfrage mit einer Eingabe von 1.000 Text-Tokens und 500 Audio-Tokens unterstützen und eine Ausgabe von 300 Text-Tokens mit gemini-2.0-flash erhalten kann.
Anhand der Tabelle mit Durchsatz und Verbrauchsrate für gemini-2.0-flash wissen wir, dass die Verbrauchsrate für ein Eingabetext-Token 1 Token, für ein Eingabeaudio-Token 7 Tokens und für ein Ausgabetext-Token 4 Tokens beträgt.
Die Gesamtzahl der Eingabetokens des Nutzers beträgt 1.000* (1 Token pro Eingabetext-Token) + 500* (7 Tokens pro Eingabeaudio-Token) = 4.500 bereinigte Eingabetokens. Die Gesamtzahl der Ausgabetokens des Nutzers beträgt 300* (4 Tokens pro Ausgabetext-Token) = 1.200 bereinigte Ausgabetokens. Das ergibt 4.500 Eingabetokens + 1.200 Ausgabetokens = 5.700 Tokens pro Abfrage.
Wenn wir die Gesamtzahl der Tokens pro Abfrage mit der QPS multiplizieren, erhalten wir 5.700 Tokens pro Abfrage * 10 QPS = 57.000 Tokens pro Sekunde.
Wenn wir dies durch den Gesamtdurchsatz pro Sekunde und GSU teilen,erhalten wir 57.000 Gesamt-Tokens pro Sekunde ÷ 3.360 Durchsatz pro Sekunde und GSU = 16,96 GSUs. Die Mindestkaufsteigerung für dieses Modell beträgt 1, sodass der Nutzer 17 GSUs benötigt.
Wenn der Nutzer diesen Durchsatz eine Woche lang aufrechterhalten möchte, kostet ihn das 1.200 $ * 17 GSUs = 20.400 $pro Woche. Wenn sie diesen Durchsatz einen Monat lang aufrechterhalten wollten, würde das 2.700 $ * 17 GSUs = 45.900 $pro Monat kosten. Wenn sie diesen Durchsatz drei Monate lang aufrechterhalten wollten, würde das 2.400 $× 17 GSUs = 40.800 $pro Monat kosten. Und wenn sie diesen Durchsatz ein Jahr lang aufrechterhalten wollten, würde das 2.000 $× 17 GSUs = 34.000 $pro Monat kosten.
Modellabstimmung
Die Modellabstimmung ist eine effektive Methode, um große Modelle an Ihre Aufgaben anzupassen. Dies ist ein wichtiger Schritt, um die Qualität und Effizienz des Modells zu verbessern. Die Modellabstimmung bietet folgende Vorteile:
- Höhere Qualität für Ihre spezifischen Aufgaben
- Erhöhte Robustheit des Modells
- Niedrigere Inferenzlatenz und Kosten aufgrund kürzerer Prompts
Die Abstimmung wird pro Million Trainings-Tokens berechnet. Die Anzahl der Trainingstokens wird berechnet, indem die Gesamtzahl der Tokens in Ihrem Trainings-Dataset mit der Anzahl der Epochen multipliziert wird. Für die Modellinferenz hat der Endpunkt des feinabgestimmten Gemini-Modells denselben Vorhersagepreis wie das Basismodell.
| Modell | Typ | Preis (/1 Mio. Trainingstokens) |
|---|---|---|
| Gemini 2.5 Pro | Überwachte Feinabstimmung | 25 $ |
| Gemini 2.5 Flash | Überwachte Feinabstimmung Präferenzabstimmung |
5 $ |
| Gemini 2.5 Flash Lite | Überwachte Feinabstimmung Präferenzabstimmung |
1,50 $ |
| Gemma 3 27B IT | Überwachte Feinabstimmung | 6,83 $ |
| Llama 3.1 8B | Überwachte Feinabstimmung | 0,67 $ |
| Llama 3.2 1B | Überwachte Feinabstimmung | 0,28 $ |
| Llama 3.2 3B | Überwachte Feinabstimmung | 0,61 $ |
| Llama 3.3 70B | Überwachte Feinabstimmung | 6,72 $ |
| Llama 4 Scout 17B 16E | Überwachte Feinabstimmung | 5,77 $ |
| Qwen 3 32B | Überwachte Feinabstimmung | 6,57 $ |
* Die Anzahl der Trainingstokens wird berechnet, indem die Gesamtzahl der Tokens in Ihrem Trainings-Dataset mit der Anzahl der Epochen multipliziert wird.
* Für einen Gemini-Endpunkt mit abgestimmtem Modell gilt derselbe Preis für Vorhersagen wie für das Basismodell.
Preise für Partnermodelle in Vertex AI vergleichen
Partnermodelle sind eine ausgewählte Liste generativer KI-Modelle, die von Google-Partnern entwickelt wurden. Partnermodelle werden als verwaltete APIs angeboten. Weitere Informationen finden Sie unter Übersicht über Partnermodelle. In den folgenden Abschnitten finden Sie Preisinformationen zu Google-Partnermodellen.
Modelle von AI21 Labs
| Modell | Preise |
|---|---|
| Jamba 1.5 Large (eingestellt) | Eingabe: 2 $ pro Million Tokens Ausgabe: 8 $ pro Million Tokens |
| Jamba 1.5 Mini (eingestellt) | Eingabe: 0,20 $ / Million Tokens Ausgabe: 0,40 $ / Million Tokens |
Claude-Modelle von Anthropic
Modelle mit regionalen Preisen
Global
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Opus 4.5 | Eingabe: 5,00 $ Ausgabe: 25,00 $ Batch-Eingabe: 2,50 $ Batch-Ausgabe: 12,50 $ 5 Min. Cache-Schreibvorgang: 6,25 $ 1 Std. Cache-Schreibvorgang: 10,00 $ Cache-Treffer: 0,50 $ 5 Min. Batch-Cache-Schreibvorgang: 3,125 $ 1 Std. Batch-Cache-Schreibvorgang: 5,00 $ Batch-Cache-Treffer: 0,25 $ |
|
| Claude Sonnet 4.5 | Eingabe: 3,00 $ Ausgabe: 15,00 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreiben (5 Min.): 3,75 $ Cache-Schreiben (1 Std.): 6,00 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreiben: 1,88 $ Batch-Cache-Treffer: 0,15 $ |
Eingabe: 6,00 $ Ausgabe: 22,50 $ Batch-Eingabe: 3,00 $ Batch-Ausgabe: 11,25 $ Cache-Schreibvorgang (5 Minuten): 7,50 $ Cache-Schreibvorgang (1 Stunde): 12,00 $ Cache-Treffer: 0,60 $ Batch-Cache-Schreibvorgang: 3,75 $ Batch-Cache-Treffer: 0,30 $ |
| Claude Haiku 4.5 | Eingabe: 1,00 $ Ausgabe: 5,00 $ Batch-Eingabe: 0,50 $ Batch-Ausgabe: 2,50 $ Cache-Schreibvorgang (5 Minuten): 1,25 $ Cache-Schreibvorgang (1 Stunde): 2,00 $ Cache-Treffer: 0,10 $ Batch-Cache-Schreibvorgang: 0,625 $ Batch-Cache-Treffer: 0,05 $ |
us-east5
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Opus 4.5 | Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $ |
|
| Claude Sonnet 4.5 | Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ Cache-Schreibvorgang (5 Minuten): 4,13 $ Cache-Schreibvorgang (1 Stunde): 6,60 $ Cache-Treffer: 0,33 $ Batch-Cache-Schreibvorgang: 2,06 $ Batch-Cache-Treffer: 0,17 $ |
Eingabe: 6,60 $ Ausgabe: 24,75 $ Batch-Eingabe: 3,30 $ Batch-Ausgabe: 12,38 $ Cache-Schreiben (5 Min.): 8,25 $ Cache-Schreiben (1 Std.): 13,20 $ Cache-Treffer: 0,66 $ Batch-Cache-Schreiben: 4,13 $ Batch-Cache-Treffer: 0,33 $ |
| Claude Haiku 4.5 | Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Min.): 1,375 $ Cache-Schreibvorgang (1 Std.): 2,20 $ Cache-Schreibvorgang: 1,375 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang: 0,688 $ Batch-Cache-Treffer: 0,055 $ |
europe-west1
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Opus 4.5 | Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $ |
|
| Claude Sonnet 4.5 | Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ Cache-Schreibvorgang (5 Minuten): 4,13 $ Cache-Schreibvorgang (1 Stunde): 6,60 $ Cache-Treffer: 0,33 $ Batch-Cache-Schreibvorgang: 2,06 $ Batch-Cache-Treffer: 0,17 $ |
Eingabe: 6,60 $ Ausgabe: 24,75 $ Batch-Eingabe: 3,30 $ Batch-Ausgabe: 12,38 $ Cache-Schreiben (5 Min.): 8,25 $ Cache-Schreiben (1 Std.): 13,20 $ Cache-Treffer: 0,66 $ Batch-Cache-Schreiben: 4,13 $ Batch-Cache-Treffer: 0,33 $ |
| Claude Haiku 4.5 | Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Minuten): 1,375 $ Cache-Schreibvorgang (1 Stunde): 2,20 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang: 0,688 $ Batch-Cache-Treffer: 0,055 $ |
asia-southeast1
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Opus 4.5 | Eingabe: 5,50 $ Ausgabe: 27,50 $ Batch-Eingabe: 2,75 $ Batch-Ausgabe: 13,75 $ Cache-Schreibvorgang (5 Min.): 6,875 $ Cache-Schreibvorgang (1 Std.): 11,00 $ Cache-Treffer: 0,55 $ Batch-Cache-Schreibvorgang (5 Min.): 3,438 $ Batch-Cache-Schreibvorgang (1 Std.): 5,50 $ Batch-Cache-Treffer: 0,275 $ |
|
| Claude Sonnet 4.5 | Eingabe: 3,30 $ Ausgabe: 16,50 $ Batch-Eingabe: 1,65 $ Batch-Ausgabe: 8,25 $ Cache-Schreibvorgang (5 Minuten): 4,13 $ Cache-Schreibvorgang (1 Stunde): 6,60 $ Cache-Treffer: 0,33 $ Batch-Cache-Schreibvorgang: 2,06 $ Batch-Cache-Treffer: 0,17 $ |
Eingabe: 6,60 $ Ausgabe: 24,75 $ Batch-Eingabe: 3,30 $ Batch-Ausgabe: 12,38 $ Cache-Schreiben (5 Min.): 8,25 $ Cache-Schreiben (1 Std.): 13,20 $ Cache-Treffer: 0,66 $ Batch-Cache-Schreiben: 4,13 $ Batch-Cache-Treffer: 0,33 $ |
asia-east1
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Haiku 4.5 | Eingabe: 1,10 $ Ausgabe: 5,50 $ Batch-Eingabe: 0,55 $ Batch-Ausgabe: 2,75 $ Cache-Schreibvorgang (5 Min.): 1,375 $ Cache-Schreibvorgang (1 Std.): 2,20 $ Cache-Schreibvorgang: 1,375 $ Cache-Treffer: 0,11 $ Batch-Cache-Schreibvorgang: 0,688 $ Batch-Cache-Treffer: 0,055 $ |
* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für langen Kontext berechnet.
Modelle mit einheitlichen Preisen in allen Regionen
| Modell | Preis (/1M Tokens) < 200K Eingabetokens | Preis (/1 Mio. Tokens) >= 200.000 Eingabetokens |
|---|---|---|
| Claude Opus 4.1 | Eingabe: 15 $ Ausgabe: 75 $ Batch-Eingabe: 7,50 $ Batch-Ausgabe: 37,50 $ 5 Min. Cache-Schreibvorgang: 18,75 $ 1 Std. Cache-Schreibvorgang: 30 $ Cache-Treffer: 1,50 $ Batch-Cache-Schreibvorgang: 9,375 $ Batch-Cache-Treffer: 0,75 $ |
– |
| Claude Opus 4 | Eingabe: 15 $ Ausgabe: 75 $ Batch-Eingabe: 7,50 $ Batch-Ausgabe: 37,50 $ Cache-Schreibvorgang (5 Minuten): 18,75 $ Cache-Schreibvorgang (1 Stunde): 30 $ Cache-Treffer: 1,50 $ Batch-Cache-Schreibvorgang: 9,375 $ Batch-Cache-Treffer: 0,75 $ |
– |
| Claude Sonnet 4 | Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreibvorgang (5 Minuten): 3,75 $ Cache-Schreibvorgang (1 Stunde): 6,00 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreibvorgang: 1,875 $ Batch-Cache-Treffer: 0,15 $ |
Eingabe: 6 $ Ausgabe: 22,50 $ Batch-Eingabe: 3 $ Batch-Ausgabe: 11,25 $ Cache-Schreibvorgang (5 Minuten): 7,50 $ Cache-Schreibvorgang (1 Stunde): 12 $ Cache-Treffer: 0,60 $ Batch-Cache-Schreibvorgang: 3,75 $ Batch-Cache-Treffer: 0,30 $ |
| Claude 3.5 Haiku | Eingabe: 0,80 $ Ausgabe: 4 $ Batch-Eingabe: 0,40 $ Batch-Ausgabe: 2 $ Cache-Schreiben (5 Min.): 1 $ Cache-Schreiben (1 Std.): 1,60 $ Cache-Treffer: 0,08 $ Batch-Cache-Schreiben: 0,50 $ Batch-Cache-Treffer: 0,04 $ |
– |
| Claude 3 Haiku | Eingabe: 0,25 $ Ausgabe: 1,25 $ 5 Min. Cache-Schreibvorgang: 0,30 $ 1 Std. Cache-Schreibvorgang: 0,50 $ Cache-Treffer: 0,03 $ | – |
| Claude 3.7 Sonnet (eingestellt) | Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreiben: 3,75 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreiben: 1,875 $ Batch-Cache-Treffer: 0,15 $ |
– |
| Claude 3.5 Sonnet v2 (veraltet) | Eingabe: 3 $ Ausgabe: 15 $ Batch-Eingabe: 1,50 $ Batch-Ausgabe: 7,50 $ Cache-Schreiben: 3,75 $ Cache-Treffer: 0,30 $ Batch-Cache-Schreiben: 1,875 $ Batch-Cache-Treffer: 0,15 $ |
– |
| Claude 3.5 Sonnet (veraltet) | Eingabe: 3 $ Ausgabe: 15 $ Cache-Schreibvorgang: 3,75 $ Cache-Treffer: 0,30 $ |
– |
| Claude 3 Opus (eingestellt) | Eingabe: 15 $ Ausgabe: 75 $ Cache-Schreibvorgang: 18,75 $ Cache-Treffer: 1,50 $ |
– |
* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Tarifen für lange Kontexte abgerechnet.
Preise für Tools
| Tool | Preis |
|---|---|
| Websuche-Anfrage | 10$pro 1.000 Suchanfragen
Unterstützte Modelle: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 und Claude Opus 4. |
* Wenn der Kontext einer Abfrageeingabe länger als oder gleich 200.000 Tokens ist, werden alle Tokens (Eingabe und Ausgabe) zu den Preisen für langen Kontext berechnet.
Modelle von DeepSeek
| Modell | Preise |
|---|---|
| DeepSeek-V3.1 | Eingabe: 0,60 $ / Million Tokens Ausgabe: 1,70 $ / Million Tokens Batch-Eingabe: 0,30 $ / Million Tokens Batch-Ausgabe: 0,85 $ / Million Tokens |
| DeepSeek-R1 (0528) | Eingabe: 1,35 $ / Million Tokens Ausgabe: 5,40 $ / Million Tokens Batch-Eingabe: 0,675 $ / Million Tokens Batch-Ausgabe: 2,70 $ / Million Tokens |
| DeepSeek-OCR * | Eingabe: 0,30 $ / Million Tokens (oder 0,0003 $/Seite) Ausgabe: 1,20 $ / Million Tokens (oder 0,00012 $/Seite) |
- Kostenlos verfügbar bis 10. November 2025.
Modelle von MiniMax
| Modell | Preise |
|---|---|
| MiniMax-M2 * | Eingabe: 0,30 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens |
- Kostenlos verfügbar bis 10. November 2025.
Modelle von Moonshot
| Modell | Preise |
|---|---|
| Kimi-K2-Thinking * | Eingabe: 0,60 $ / Million Tokens Ausgabe: 2,50 $ / Million Tokens |
- Kostenlos verfügbar bis zum 17. November 2025.
Qwen-Modelle
| Modell | Preise |
|---|---|
| Qwen3-Next-80B-Thinking | Eingabe: 0,15 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens |
| Qwen3-Next-80B-Instruct | Eingabe: 0,15 $ / Million Tokens Ausgabe: 1,20 $ / Million Tokens |
| Qwen3-Coder-480B-A35B-Instruct | Eingabe: 1,00 $ / Million Tokens Ausgabe: 4,00 $ / Million Tokens Batch-Eingabe: 0,50 $ / Million Tokens Batch-Ausgabe: 2,00 $ / Million Tokens |
| Qwen3-235B-A22B-Instruct-2507 | Eingabe: 0,25 $ / Million Tokens Ausgabe: 1,00 $ / Million Tokens Batch-Eingabe: 0,125 $ / Million Tokens Batch-Ausgabe: 0,50 $ / Million Tokens |
Modelle von OpenAI
| Modell | Preise |
|---|---|
| gpt-oss-120b | Eingabe: 0,09 $ / Million Tokens Ausgabe: 0,36 $ / Million Tokens Batch-Eingabe: 0,045 $ / Million Tokens Batch-Ausgabe: 0,18 $ / Million Tokens |
| gpt-oss-20b | Eingabe: 0,07 $ / Million Tokens Ausgabe: 0,25 $ / Million Tokens Batch-Eingabe: 0,035 $ / Million Tokens Batch-Ausgabe: 0,125 $ / Million Tokens |
Llama-Modelle von Meta
| Modell | Preise |
|---|---|
| Llama 3.1 405B | Eingabe: 5,00 $ / Million Tokens Ausgabe: 16,00 $ / Million Tokens |
| Llama 3.3 70B | Eingabe: 0,72 $ / Million Tokens Ausgabe: 0,72 $ / Million Tokens Batch-Eingabe: 0,36 $ / Million Tokens Batch-Ausgabe: 0,36 $ / Million Tokens |
| Llama 4 Scout | Eingabe: 0,25 $ / Million Tokens Ausgabe: 0,70 $ / Million Tokens Batch-Eingabe: 0,125 $ / Million Tokens Batch-Ausgabe: 0,35 $ / Million Tokens |
| Llama 4 Maverick | Eingabe: 0,35 $ / Million Tokens Ausgabe: 1,15 $ / Million Tokens Batch-Eingabe: 0,175 $ / Million Tokens Batch-Ausgabe: 0,575 $ / Million Tokens |
Modelle von Mistral AI
| Modell | Preise |
|---|---|
| Mistral OCR (25.05) | Eingabe: 0,0005 $ / Million Tokens (oder 0,0005 $/Seite) Ausgabe: 0,0005 $ / Million Tokens (oder 0,0005 $/Seite) |
| Mistral Medium 3 | Eingabe: 0,40 $ / Million Tokens Ausgabe: 2,00 $ / Million Tokens |
| Mistral Small 3.1 (25.03) | Eingabe: 0,10 $ / Million Tokens Ausgabe: 0,30 $ / Million Tokens |
| Mistral Large (24.11) (eingestellt) | Eingabe: 2,00 $ / Million Tokens Ausgabe: 6,00 $ / Million Tokens |
| Codestral 2 | Eingabe: 0,30 $ / Million Tokens Ausgabe: 0,90 $ / Million Tokens |
| Codestral (25.01) (eingestellt) | Eingabe: 0,30 $ / Million Tokens Ausgabe: 0,90 $ / Million Tokens |