Vertex AI bietet eine wachsende Liste an Foundation Models, die Sie testen, bereitstellen und für den Einsatz in Ihren KI-basierten Anwendungen anpassen können. Foundation Models sind für bestimmte Anwendungsfälle optimiert und werden zu verschiedenen Preispunkten angeboten. Diese Seite fasst die Modelle zusammen, die in den verschiedenen APIs verfügbar sind. Außerdem erhalten Sie eine Anleitung zur Auswahl von Modellen für verschiedene Anwendungsfälle.
Weitere Informationen zu den verschiedenen KI-Modellen und APIs in Vertex AI finden Sie unter KI-Modelle in Model Garden entdecken.
Gemini-Modelle
In der folgenden Tabelle sind die in der Gemini API verfügbaren Modelle zusammengefasst. Weitere Informationen zu API-Details finden Sie in der Gemini API-Referenz.
Wenn Sie ein Modell in der Google Cloud Console untersuchen möchten, wählen Sie die entsprechende Modellkarte im Model Garden aus.
Modell | Eingaben | Ausgaben | Anwendungsfall | Modell testen |
---|---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash
|
Text, Code, Bilder, Audio, Video, Video mit Audio, PDF | Text, Audio (private Vorschau), Bilder (private Vorschau) | Ein zuverlässiges Modell für alle täglichen Aufgaben. Hervorragende Gesamtleistung und Unterstützung der Live API für Echtzeitstreaming. | Gemini 2.0 Flash testen |
Gemini 2.5 Pro (Vorabversion)
gemini-2.5-pro-preview-03-25
|
Text, Bilder, Video, Audio, PDF | Text | Das fortschrittlichste Gemini-Modell für Schlussfolgerungen, insbesondere für multimodales Verständnis, Programmieren und Weltwissen. | Gemini 2.5 Pro-Vorabversion testen |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
|
Text, Bilder, Video, Audio, PDF | Text | Unser kostengünstiges Angebot für einen hohen Durchsatz. | Gemini 2.0 Flash-Lite testen |
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
|
Text, Bilder | Text | Bietet bessere Begründungskompetenzen und bezieht den Denkprozess in die Antworten ein. | Gemini 2.0 Flash Thinking testen |
Die folgenden Informationen enthalten Details zu den einzelnen Gemini-Modellen.
Gemini 2.0 Flash
Die nächste Generation unserer Gemini Flash-Modelle. Gemini 2.0 Flash bietet eine höhere Geschwindigkeit und unterstützt eine erweiterte Palette von Funktionen wie bidirektionales Streaming mit der Multimodal Live API, die Generierung multimodaler Antworten und die Verwendung integrierter Tools.
Leistungsspektrum
Leistungsvermögen | Verfügbarkeit |
---|---|
Fundierung mit der Google Suche | |
Codeausführung | |
Abstimmung | |
Systemanweisung | Weitere Informationen finden Sie unter Systemanweisungen verwenden. |
Gesteuerte Generierung | |
Bereitgestellter Durchsatz | Weitere Informationen finden Sie unter Unterstützte Modelle. |
Batchvorhersage | |
Funktionsaufrufe |
Spezifikationen
Spezifikation | Wert |
---|---|
Maximale Eingabetokens | 1.048.576 |
Maximale Ausgabetokens | 8.192 |
Trainingsdaten | Bis Juni 2024 |
Gemini 2.5 Pro (Vorabversion)
Gemini 2.5 Pro Preview ist unser leistungsstärkstes Modell für multimodales Verstehen, Programmieren und Weltwissen. Es hat ein Kontextfenster mit einer Länge von 1 Million. Gemini 2.5 Pro Preview ist als Vorschaumodell in Vertex AI verfügbar und bietet Nutzern von 1.5 Pro, die eine bessere Qualität wünschen oder besonders an langen Kontexten und Code interessiert sind, die Möglichkeit zum Upgrade.
Leistungsspektrum
Leistungsvermögen | Verfügbarkeit |
---|---|
Fundierung mit der Google Suche | |
Codeausführung | |
Abstimmung | |
Systemanweisung | Weitere Informationen finden Sie unter Systemanweisungen verwenden. |
Gesteuerte Generierung | |
Bereitgestellter Durchsatz | Weitere Informationen finden Sie unter Unterstützte Modelle. |
Spezifikationen
Spezifikation | Wert |
---|---|
Maximale Eingabetokens | 1.048.576 |
Maximale Ausgabetokens | 64.000 |
Trainingsdaten | Bis Januar 2025 |
Kontingentlimit | 20 Abfragen pro Minute |
Gemini 2.0 Flash-Lite
Gemini 2.0 Flash-Lite ist unser schnellstes und kostengünstigstes Flash-Modell. Sie bietet eine bessere Qualität und Geschwindigkeit.
Leistungsspektrum
Leistungsvermögen | Verfügbarkeit |
---|---|
Fundierung mit der Google Suche | |
Codeausführung | |
Abstimmung | |
Systemanweisung | Weitere Informationen finden Sie unter Systemanweisungen verwenden. |
Gesteuerte Generierung | |
Bereitgestellter Durchsatz | Weitere Informationen finden Sie unter Unterstützte Modelle. |
Batchvorhersage | |
Funktionsaufrufe |
Spezifikationen
Spezifikation | Wert |
---|---|
Maximale Eingabetokens | 1.048.576 |
Maximale Ausgabetokens | 8.192 |
Trainingsdaten | Bis Januar 2025 |
Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking ist ein experimentelles Modell zur Berechnung in der Testzeit, das darauf trainiert ist, den „Denkprozess“ zu generieren, den das Modell als Teil seiner Antwort durchläuft. Daher ist Flash Thinking in seinen Antworten in der Lage, stärkere Schlussfolgerungsfunktionen zu nutzen als das Basismodell Gemini 2.0 Flash. Weitere Informationen finden Sie in der Dokumentation zu Gemini 2.0 Flash Thinking.
Leistungsspektrum
Leistungsvermögen | Verfügbarkeit |
---|---|
Fundierung mit der Google Suche | |
Abstimmung | |
Systemanweisung | Weitere Informationen finden Sie unter Systemanweisungen verwenden. |
Gesteuerte Generierung | |
Bereitgestellter Durchsatz | Weitere Informationen finden Sie unter Unterstützte Modelle. |
Spezifikationen
Spezifikation | Wert |
---|---|
Maximale Eingabetokens | 1.048.576 |
Maximale Ausgabetokens | 65.536 |
Trainingsdaten | Bis Mai 2024 |
Gemini-Sprachunterstützung
Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:
Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).
Die Modelle Gemini 2.0 Flash, Gemini 1.5 Pro und Gemini 1.5 Flash können in den folgenden zusätzlichen Sprachen verstehen und antworten:
Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)
Gemma-Modelle
In der folgenden Tabelle sind die Gemma-Modelle zusammengefasst.
Modell | Eingaben | Ausgaben | Anwendungsfall | Modell testen |
---|---|---|---|---|
Gemma 3 Modelldetails |
Text, Bilder | Text | Ein kleines, schlankes offenes Modell, das Textgenerierung und Aufgaben zum Bildverständnis unterstützt, einschließlich Fragebeantwortung, Zusammenfassung und Argumentation. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. | Gemma 3 testen |
Gemma 2 Modelldetails |
Text | Text | Ein kleines, schlankes Modell für offenen Text, das Textgenerierung, -zusammenfassung und -extraktion unterstützt. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. | Gemma 2 testen |
Gemma Modelldetails |
Text | Text | Ein kleines, schlankes Modell für offenen Text, das Textgenerierung, -zusammenfassung und -extraktion unterstützt. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. | Gemma testen |
CodeGemma Modelldetails |
Text, Code, PDF | Text | Eine Sammlung einfacher Open-Code-Modelle, die auf Gemma basieren. Optimal für die Codegenerierung und -vervollständigung. | CodeGemma testen |
PaliGemma 2 Modelldetails |
Text, Bilder | Text | Ein einfaches Vision-Language-Modell (VLM). Am besten geeignet für Aufgaben zum Erstellen von Bildunterschriften und zum Beantworten visueller Fragen. | PaliGemma 2 testen |
PaliGemma Modelldetails |
Text, Bilder | Text | Ein einfaches Vision-Language-Modell (VLM). Am besten geeignet für Aufgaben zum Erstellen von Bildunterschriften und zum Beantworten visueller Fragen. | PaliGemma testen |
ShieldGemma 2 Modelldetails |
Text, Bilder | Text | Ein einfaches Vision-Language-Modell (VLM), das die Sicherheit synthetischer und natürlicher Bilder prüft, um Ihnen beim Erstellen robuster Datasets und Modelle zu helfen. | ShieldGemma 2 testen |
TxGemma Modelldetails |
Text | Text | Eine Sammlung einfacher, offener Sprachmodelle, um die Entwicklung von Arzneimitteln zu beschleunigen. Am besten geeignet für therapeutische Vorhersageaufgaben, einschließlich Klassifizierung, Regression oder Generierung sowie Aufgaben zur Argumentation. | TxGemma testen |
Gemma-Sprachunterstützung
Gemma und Gemma 2 unterstützen nur die englische Sprache. Gemma 3 bietet mehrsprachigen Support in über 140 Sprachen.
Einbettungsmodelle
In der folgenden Tabelle sind die in der Embeddings API verfügbaren Modelle zusammengefasst.
Modellname | Beschreibung | Spezifikationen | Modell testen |
---|---|---|---|
Einbettungen für Text ( text-embedding-004, )Modelldetails |
Gibt Einbettungen für englische Texteingaben zurück.
Unterstützt die überwachte Abstimmung von Embeddings für Text-Modellen, nur auf Englisch. |
Maximale Tokeneingabe: 2.048.
Einbettungsdimensionen: text-embedding-004, text-embedding-005 : <=768. Sonstige: 768. |
Einbettungen für Text testen |
Einbettungen für mehrsprachigen Text ( text-multilingual-embedding-002 )Modelldetails |
Gibt Einbettungen für Texteingaben von über 100 Sprachen zurück Unterstützt die überwachte Abstimmung des text-multilingual-embedding-002 -Modells. Unterstützt über 100 Sprachen |
Maximale Tokeneingabe: 2.048 Einbettungsdimensionen: text-multilingual-embedding-002 : <=768 Andere: 768 |
Einbettungen für mehrsprachigen Text testen |
Einbettungen für multimodale Konfigurationen(multimodalembedding) Modelldetails |
Gibt Einbettungen für Text-, Bild- und Videoeingaben zurück, um Inhalte aus verschiedenen Modellen zu vergleichen. Konvertiert Text, Bilder und Videos in denselben Vektorbereich. Video unterstützt nur 1408 Dimensionen. nur in englischer Sprache verfügbar. |
Maximale Tokeneingabe: 32, Maximale Bildgröße: 20 MB, maximale Videolänge: 2 Minuten, Einbettungsdimensionen: 128, 256, 512 oder 1408 für Text+Bildeingabe, 1408 für Videoeingabe. |
Einbettungen für multimodale Konfigurationen testen |
Einbettungen für Text (Englisch, mehrsprachig, Code) ( text-embedding-large-exp-03-07 )Modelldetails |
Gibt Einbettungen für Texteingaben in über 100 Sprachen sowie Python- und Java-Code zurück.
Dies ist ein experimentelles Modell. Experimentelle Modelle folgen nicht dem Standard-Modelllebenszyklusplan und dem Versionierungsschema von Google. Außerdem kann ein Modell ohne vorherige Ankündigung durch ein anderes ersetzt werden. Wir können auch nicht garantieren, dass ein experimentelles Modell in Zukunft zu einem stabilen Modell wird. |
Maximale Tokeneingabe: 8.192
Einbettungsdimensionen: 3.072 |
Einbettungen für großen Text testen |
Sprachunterstützung für Einbettungen
Mehrsprachige Texteinbettungsmodelle unterstützen die folgenden Sprachen:
Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengalisch, Bulgarisch, Burmesisch, Katalanisch, Cebuano, Plughewa, Chinesisch, Korsesisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Griechisch, Gujarati, Haitianisches Kreolisch, Hausa, Hawaii, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaiisch, Malayalam, Maltesisch, Maori,
Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtunisch, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch, Serbisch, Shona, Sindhi, Singhalesisch, Slowakisch, Slowenisch, Somali, Sotho,{ 101} Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.
Imagen-Modell
In der folgenden Tabelle sind die in der Imagen API verfügbaren Modelle zusammengefasst:
Modell | Eingaben | Ausgaben | Anwendungsfall | Modell testen |
---|---|---|---|---|
Bild 3 ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 )Bild 2 ( imagegeneration@006 ,
imagegeneration@005 )Bild ( imagegeneration@002 )Modelldetails |
Text | Bilder | Dieses Modell unterstützt die Bilderstellung und -bearbeitung, um in Sekundenschnelle hochwertige Bilder zu erstellen. Dazu gehört auch die Bildgenerierung mit Zero-Shot-Learning. | Imagen für die Bildgenerierung ausprobieren |
Bild 3 (Bearbeitung und Anpassung) ( imagen-3.0-capability-001 )Bild 2 (Bearbeitung) ( imagegeneration@006 )Bild (Bearbeitung) imagegeneration@002 )Modelldetails |
Text und Bilder | Bilder | Dieses Modell unterstützt die Bildbearbeitung und die benutzerdefinierte (mit wenigen Bildern) Bildgenerierung, um in Sekundenschnelle hochwertige Bilder zu erstellen.
Die Bearbeitungsfunktion unterstützt Inpainting (Entfernen oder Einfügen von Objekten), Outpainting und die Bearbeitung von Produktbildern. Die Anpassung unterstützt das Lernen mit wenigen Beispielen. Sie können Referenzbilder zur Generierung von Ausgabebildern bereitstellen. Dieses Modell unterstützt die folgenden Arten der Anpassung: Motiv (Produkt, Person und Haustier), Stil, gesteuerte Anpassung (Scribble oder Canny-Ecke) und angeleitete Anpassung (Stilübertragung). |
Bilder mit Imagen bearbeiten und anpassen |
Imagen 3-Sprachunterstützung
Imagen 3 unterstützt die folgenden Sprachen:
Englisch, Chinesisch, Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch.
Codevervollständigungsmodell
In der folgenden Tabelle sind die in den Codey APIs verfügbaren Modelle zusammengefasst:
Modell | Eingaben | Ausgaben | Anwendungsfall | Modell testen |
---|---|---|---|---|
Codey für Codevervollständigung ( code-gecko ) Modelldetails |
Code in unterstützten Sprachen | Code in unterstützten Sprachen | Ein Modell, das optimiert wurde, um eine Codevervollständigung auf Grundlage des Kontextes im geschriebenen Code vorzuschlagen. | Codey für Codevervollständigung testen |
Sprachunterstützung für Codevervollständigungsmodelle
Das Modell für die Codevervollständigung unterstützt die englische Sprache.
MedLM-Modelle
In der folgenden Tabelle sind die in der MedLM API verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Spezifikationen | Modell testen |
---|---|---|---|
MedLM-medium (medlm-medium )Modelldetails |
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden. Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente. Bietet einen besseren Durchsatz und enthält aktuellere Daten als das medlm-large -Modell. |
Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 |
MedLM-medium ausprobieren |
MedLM-large (medlm-large )Modelldetails |
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden. Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente. |
Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 1.024 |
MedLM-large ausprobieren |
Unterstützung für den bereitgestellten Durchsatz von MedLM
MedLM-medium und MedLM-large unterstützen den bereitgestellten Durchsatz. Weitere Informationen finden Sie unter Unterstützte Modelle.
MedLM-Sprachunterstützung
Das MedLM-Modell unterstützt die englische Sprache.
Standorte
Eine Liste der Standorte, an denen diese Modelle verfügbar sind, finden Sie unter Generative AI an Vertex AI-Standorten.
Modellversionen
Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.
Alle Modelle in Model Garden untersuchen
Model Garden ist eine Plattform, mit der Sie Vertex AI ermitteln, testen, anpassen und bereitstellen sowie OSS-Modelle und -Assets auswählen können. Informationen zu den in Vertex AI verfügbaren generativen KI-Modellen und APIs finden Sie in der Model Console in der Google Cloud Console.
Weitere Informationen zu Model Garden, einschließlich der verfügbaren Modelle und Funktionen, finden Sie unter KI-Modelle in Model Garden entdecken.
Wie geht es weiter?
- Wagen Sie sich an eine Kurzeinführung mit Generative AI Studio oder der Vertex AI API.
- Weitere Informationen zum Testen von Text-Prompts
- Informationen zum Testen von Chat-Prompts
- Vortrainierte Modelle in Model Garden untersuchen.
- Foundation Model optimieren
- Weitere Informationen zu Best Practices für verantwortungsvolle KI und den Sicherheitsfiltern von Vertex AI.
- Informationen zum Steuern des Zugriffs auf bestimmte Modelle in Model Garden mithilfe einer Model Garden-Organisationsrichtlinie.