Google-Modelle

Vertex AI bietet eine wachsende Liste an Foundation Models, die Sie testen, bereitstellen und für den Einsatz in Ihren KI-basierten Anwendungen anpassen können. Foundation Models sind für bestimmte Anwendungsfälle optimiert und werden zu verschiedenen Preispunkten angeboten. Diese Seite fasst die Modelle zusammen, die in den verschiedenen APIs verfügbar sind. Außerdem erhalten Sie eine Anleitung zur Auswahl von Modellen für verschiedene Anwendungsfälle.

Weitere Informationen zu den verschiedenen KI-Modellen und APIs in Vertex AI finden Sie unter KI-Modelle in Model Garden entdecken.

Gemini-Modelle

In der folgenden Tabelle sind die in der Gemini API verfügbaren Modelle zusammengefasst. Weitere Informationen zu API-Details finden Sie in der Gemini API-Referenz.

Wenn Sie ein Modell in der Google Cloud Console untersuchen möchten, wählen Sie die entsprechende Modellkarte im Model Garden aus.

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Gemini 2.0 Flash
gemini-2.0-flash
Text, Code, Bilder, Audio, Video, Video mit Audio, PDF Text, Audio (private Vorschau), Bilder (private Vorschau) Ein zuverlässiges Modell für alle täglichen Aufgaben. Hervorragende Gesamtleistung und Unterstützung der Live API für Echtzeitstreaming. Gemini 2.0 Flash testen
Gemini 2.5 Pro (Vorabversion)
gemini-2.5-pro-preview-03-25
Text, Bilder, Video, Audio, PDF Text Das fortschrittlichste Gemini-Modell für Schlussfolgerungen, insbesondere für multimodales Verständnis, Programmieren und Weltwissen. Gemini 2.5 Pro-Vorabversion testen
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
Text, Bilder, Video, Audio, PDF Text Unser kostengünstiges Angebot für einen hohen Durchsatz. Gemini 2.0 Flash-Lite testen
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
Text, Bilder Text Bietet bessere Begründungskompetenzen und bezieht den Denkprozess in die Antworten ein. Gemini 2.0 Flash Thinking testen

Die folgenden Informationen enthalten Details zu den einzelnen Gemini-Modellen.

Gemini 2.0 Flash

Die nächste Generation unserer Gemini Flash-Modelle. Gemini 2.0 Flash bietet eine höhere Geschwindigkeit und unterstützt eine erweiterte Palette von Funktionen wie bidirektionales Streaming mit der Multimodal Live API, die Generierung multimodaler Antworten und die Verwendung integrierter Tools.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Fundierung mit der Google Suche
Codeausführung
Abstimmung
Systemanweisung Weitere Informationen finden Sie unter Systemanweisungen verwenden.
Gesteuerte Generierung
Bereitgestellter Durchsatz Weitere Informationen finden Sie unter Unterstützte Modelle.
Batchvorhersage
Funktionsaufrufe

Spezifikationen

Spezifikation Wert
Maximale Eingabetokens 1.048.576
Maximale Ausgabetokens 8.192
Trainingsdaten Bis Juni 2024

Gemini 2.5 Pro (Vorabversion)

Gemini 2.5 Pro Preview ist unser leistungsstärkstes Modell für multimodales Verstehen, Programmieren und Weltwissen. Es hat ein Kontextfenster mit einer Länge von 1 Million. Gemini 2.5 Pro Preview ist als Vorschaumodell in Vertex AI verfügbar und bietet Nutzern von 1.5 Pro, die eine bessere Qualität wünschen oder besonders an langen Kontexten und Code interessiert sind, die Möglichkeit zum Upgrade.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Fundierung mit der Google Suche
Codeausführung
Abstimmung
Systemanweisung Weitere Informationen finden Sie unter Systemanweisungen verwenden.
Gesteuerte Generierung
Bereitgestellter Durchsatz Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation Wert
Maximale Eingabetokens 1.048.576
Maximale Ausgabetokens 64.000
Trainingsdaten Bis Januar 2025
Kontingentlimit 20 Abfragen pro Minute

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite ist unser schnellstes und kostengünstigstes Flash-Modell. Sie bietet eine bessere Qualität und Geschwindigkeit.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Fundierung mit der Google Suche
Codeausführung
Abstimmung
Systemanweisung Weitere Informationen finden Sie unter Systemanweisungen verwenden.
Gesteuerte Generierung
Bereitgestellter Durchsatz Weitere Informationen finden Sie unter Unterstützte Modelle.
Batchvorhersage
Funktionsaufrufe

Spezifikationen

Spezifikation Wert
Maximale Eingabetokens 1.048.576
Maximale Ausgabetokens 8.192
Trainingsdaten Bis Januar 2025

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking ist ein experimentelles Modell zur Berechnung in der Testzeit, das darauf trainiert ist, den „Denkprozess“ zu generieren, den das Modell als Teil seiner Antwort durchläuft. Daher ist Flash Thinking in seinen Antworten in der Lage, stärkere Schlussfolgerungsfunktionen zu nutzen als das Basismodell Gemini 2.0 Flash. Weitere Informationen finden Sie in der Dokumentation zu Gemini 2.0 Flash Thinking.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Fundierung mit der Google Suche
Abstimmung
Systemanweisung Weitere Informationen finden Sie unter Systemanweisungen verwenden.
Gesteuerte Generierung
Bereitgestellter Durchsatz Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation Wert
Maximale Eingabetokens 1.048.576
Maximale Ausgabetokens 65.536
Trainingsdaten Bis Mai 2024

Gemini-Sprachunterstützung

  • Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:

    Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).

  • Die Modelle Gemini 2.0 Flash, Gemini 1.5 Pro und Gemini 1.5 Flash können in den folgenden zusätzlichen Sprachen verstehen und antworten:

    Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)

Gemma-Modelle

In der folgenden Tabelle sind die Gemma-Modelle zusammengefasst.

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Gemma 3
Modelldetails
Text, Bilder Text Ein kleines, schlankes offenes Modell, das Textgenerierung und Aufgaben zum Bildverständnis unterstützt, einschließlich Fragebeantwortung, Zusammenfassung und Argumentation. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. Gemma 3 testen
Gemma 2
Modelldetails
Text Text Ein kleines, schlankes Modell für offenen Text, das Textgenerierung, -zusammenfassung und -extraktion unterstützt. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. Gemma 2 testen
Gemma
Modelldetails
Text Text Ein kleines, schlankes Modell für offenen Text, das Textgenerierung, -zusammenfassung und -extraktion unterstützt. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. Gemma testen
CodeGemma
Modelldetails
Text, Code, PDF Text Eine Sammlung einfacher Open-Code-Modelle, die auf Gemma basieren. Optimal für die Codegenerierung und -vervollständigung. CodeGemma testen
PaliGemma 2
Modelldetails
Text, Bilder Text Ein einfaches Vision-Language-Modell (VLM). Am besten geeignet für Aufgaben zum Erstellen von Bildunterschriften und zum Beantworten visueller Fragen. PaliGemma 2 testen
PaliGemma
Modelldetails
Text, Bilder Text Ein einfaches Vision-Language-Modell (VLM). Am besten geeignet für Aufgaben zum Erstellen von Bildunterschriften und zum Beantworten visueller Fragen. PaliGemma testen
ShieldGemma 2
Modelldetails
Text, Bilder Text Ein einfaches Vision-Language-Modell (VLM), das die Sicherheit synthetischer und natürlicher Bilder prüft, um Ihnen beim Erstellen robuster Datasets und Modelle zu helfen. ShieldGemma 2 testen
TxGemma
Modelldetails
Text Text Eine Sammlung einfacher, offener Sprachmodelle, um die Entwicklung von Arzneimitteln zu beschleunigen. Am besten geeignet für therapeutische Vorhersageaufgaben, einschließlich Klassifizierung, Regression oder Generierung sowie Aufgaben zur Argumentation. TxGemma testen

Gemma-Sprachunterstützung

Gemma und Gemma 2 unterstützen nur die englische Sprache. Gemma 3 bietet mehrsprachigen Support in über 140 Sprachen.

Einbettungsmodelle

In der folgenden Tabelle sind die in der Embeddings API verfügbaren Modelle zusammengefasst.

Modellname Beschreibung Spezifikationen Modell testen
Einbettungen für Text
(text-embedding-004,
text-embedding-005
)
Modelldetails
Gibt Einbettungen für englische Texteingaben zurück.

Unterstützt die überwachte Abstimmung von Embeddings für Text-Modellen, nur auf Englisch.
Maximale Tokeneingabe: 2.048.

Einbettungsdimensionen: text-embedding-004, text-embedding-005: <=768.
Sonstige: 768.
Einbettungen für Text testen
Einbettungen für mehrsprachigen Text
(text-multilingual-embedding-002)
Modelldetails
Gibt Einbettungen für Texteingaben von über 100 Sprachen zurück

Unterstützt die überwachte Abstimmung des text-multilingual-embedding-002-Modells.
Unterstützt über 100 Sprachen
Maximale Tokeneingabe: 2.048

Einbettungsdimensionen: text-multilingual-embedding-002: <=768
Andere: 768
Einbettungen für mehrsprachigen Text testen
Einbettungen für multimodale Konfigurationen
(multimodalembedding)
Modelldetails
Gibt Einbettungen für Text-, Bild- und Videoeingaben zurück, um Inhalte aus verschiedenen Modellen zu vergleichen.

Konvertiert Text, Bilder und Videos in denselben Vektorbereich. Video unterstützt nur 1408 Dimensionen.
nur in englischer Sprache verfügbar.
Maximale Tokeneingabe: 32,
Maximale Bildgröße: 20 MB,
maximale Videolänge: 2 Minuten,

Einbettungsdimensionen: 128, 256, 512 oder 1408 für Text+Bildeingabe, 1408 für Videoeingabe.
Einbettungen für multimodale Konfigurationen testen
Einbettungen für Text (Englisch, mehrsprachig, Code)
(text-embedding-large-exp-03-07)
Modelldetails
Gibt Einbettungen für Texteingaben in über 100 Sprachen sowie Python- und Java-Code zurück.

Dies ist ein experimentelles Modell. Experimentelle Modelle folgen nicht dem Standard-Modelllebenszyklusplan und dem Versionierungsschema von Google. Außerdem kann ein Modell ohne vorherige Ankündigung durch ein anderes ersetzt werden. Wir können auch nicht garantieren, dass ein experimentelles Modell in Zukunft zu einem stabilen Modell wird.
Maximale Tokeneingabe: 8.192

Einbettungsdimensionen: 3.072
Einbettungen für großen Text testen

Sprachunterstützung für Einbettungen

Mehrsprachige Texteinbettungsmodelle unterstützen die folgenden Sprachen:
Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengalisch, Bulgarisch, Burmesisch, Katalanisch, Cebuano, Plughewa, Chinesisch, Korsesisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Griechisch, Gujarati, Haitianisches Kreolisch, Hausa, Hawaii, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaiisch, Malayalam, Maltesisch, Maori, Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtunisch, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch, Serbisch, Shona, Sindhi, Singhalesisch, Slowakisch, Slowenisch, Somali, Sotho,{ 101} Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.

Imagen-Modell

In der folgenden Tabelle sind die in der Imagen API verfügbaren Modelle zusammengefasst:

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Bild 3
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001)

Bild 2
(imagegeneration@006, imagegeneration@005)

Bild
(imagegeneration@002)
Modelldetails
Text Bilder Dieses Modell unterstützt die Bilderstellung und -bearbeitung, um in Sekundenschnelle hochwertige Bilder zu erstellen. Dazu gehört auch die Bildgenerierung mit Zero-Shot-Learning. Imagen für die Bildgenerierung ausprobieren
Bild 3 (Bearbeitung und Anpassung)
(imagen-3.0-capability-001)

Bild 2 (Bearbeitung)
(imagegeneration@006)

Bild (Bearbeitung)
imagegeneration@002)
Modelldetails
Text und Bilder Bilder Dieses Modell unterstützt die Bildbearbeitung und die benutzerdefinierte (mit wenigen Bildern) Bildgenerierung, um in Sekundenschnelle hochwertige Bilder zu erstellen.

Die Bearbeitungsfunktion unterstützt Inpainting (Entfernen oder Einfügen von Objekten), Outpainting und die Bearbeitung von Produktbildern.

Die Anpassung unterstützt das Lernen mit wenigen Beispielen. Sie können Referenzbilder zur Generierung von Ausgabebildern bereitstellen. Dieses Modell unterstützt die folgenden Arten der Anpassung: Motiv (Produkt, Person und Haustier), Stil, gesteuerte Anpassung (Scribble oder Canny-Ecke) und angeleitete Anpassung (Stilübertragung).
Bilder mit Imagen bearbeiten und anpassen

Imagen 3-Sprachunterstützung

Imagen 3 unterstützt die folgenden Sprachen:
Englisch, Chinesisch, Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch.

Codevervollständigungsmodell

In der folgenden Tabelle sind die in den Codey APIs verfügbaren Modelle zusammengefasst:

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Codey für Codevervollständigung
(code-gecko)
Modelldetails
Code in unterstützten Sprachen Code in unterstützten Sprachen Ein Modell, das optimiert wurde, um eine Codevervollständigung auf Grundlage des Kontextes im geschriebenen Code vorzuschlagen. Codey für Codevervollständigung testen

Sprachunterstützung für Codevervollständigungsmodelle

Das Modell für die Codevervollständigung unterstützt die englische Sprache.

MedLM-Modelle

In der folgenden Tabelle sind die in der MedLM API verfügbaren Modelle zusammengefasst:

Modellname Beschreibung Spezifikationen Modell testen
MedLM-medium (medlm-medium)
Modelldetails
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden.

Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente. Bietet einen besseren Durchsatz und enthält aktuellere Daten als das medlm-large-Modell.
Maximale Tokens (Eingabe + Ausgabe): 32.768
Maximale Ausgabetokens: 8.192
MedLM-medium ausprobieren
MedLM-large (medlm-large)
Modelldetails
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden.

Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente.
Maximale Eingabetokens: 8.192
Maximale Ausgabetokens: 1.024
MedLM-large ausprobieren

Unterstützung für den bereitgestellten Durchsatz von MedLM

MedLM-medium und MedLM-large unterstützen den bereitgestellten Durchsatz. Weitere Informationen finden Sie unter Unterstützte Modelle.

MedLM-Sprachunterstützung

Das MedLM-Modell unterstützt die englische Sprache.

Standorte

Eine Liste der Standorte, an denen diese Modelle verfügbar sind, finden Sie unter Generative AI an Vertex AI-Standorten.

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Alle Modelle in Model Garden untersuchen

Model Garden ist eine Plattform, mit der Sie Vertex AI ermitteln, testen, anpassen und bereitstellen sowie OSS-Modelle und -Assets auswählen können. Informationen zu den in Vertex AI verfügbaren generativen KI-Modellen und APIs finden Sie in der Model Console in der Google Cloud Console.

Zu Model Garden

Weitere Informationen zu Model Garden, einschließlich der verfügbaren Modelle und Funktionen, finden Sie unter KI-Modelle in Model Garden entdecken.

Wie geht es weiter?