Die Chat Completions API funktioniert als OpenAI-kompatibler Endpunkt, der die Interaktion mit Gemini in Vertex AI durch die Verwendung der OpenAI-Bibliotheken für Python und REST vereinfachen soll. Wenn Sie bereits die OpenAI-Bibliotheken verwenden, können Sie mit dieser API kostengünstig zwischen dem Aufrufen von OpenAI-Modellen und von Vertex AI gehosteten Modellen wechseln, um Ausgabe, Kosten und Skalierbarkeit zu vergleichen, ohne den vorhandenen Code ändern zu müssen. Wenn Sie noch keine OpenAI-Bibliotheken nutzen, empfehlen wir, das Google Gen AI SDK zu verwenden.
Unterstützte Modelle
Die Chat Completions API unterstützt sowohl Gemini-Modelle als auch ausgewählte selbst bereitgestellte Modelle aus Model Garden.
Gemini-Modelle
Die folgenden Modelle unterstützen die Chat Completions API:
Selbst bereitgestellte Modelle aus Model Garden
Das Hugging Face Text Generation Interface (HF TGI) und die vordefinierten vLLM-Container von Vertex AI Model Garden unterstützen die Chat Completions API. Allerdings wird die Chat Completions API nicht von jedem Modell unterstützt, das in diesen Containern bereitgestellt wird. Die folgende Tabelle enthält die beliebtesten unterstützten Modelle nach Container:
HF TGI |
vLLM |
---|---|
Unterstützte Parameter
Für Google-Modelle unterstützt die Chat Completions API die folgenden OpenAI-Parameter. Eine Beschreibung der einzelnen Parameter finden Sie in der OpenAI-Dokumentation unter Creating chat completions. Die Parameterunterstützung für Drittanbietermodelle variiert je nach Modell. Welche Parameter unterstützt werden, können Sie in der Dokumentation des Modells nachlesen.
messages |
|
model |
|
max_completion_tokens |
Alias für max_tokens . |
max_tokens |
|
n |
|
frequency_penalty |
|
presence_penalty |
|
reasoning_effort |
Konfiguriert, wie viel Zeit und wie viele Tokens für eine Antwort verwendet werden.
reasoning_effort oder extra_body.google.thinking_config angegeben werden.
|
response_format |
|
seed |
Entspricht GenerationConfig.seed . |
stop |
|
stream |
|
temperature |
|
top_p |
|
tools |
|
tool_choice |
|
web_search_options |
Entspricht dem GoogleSearch -Tool. Unteroptionen werden nicht unterstützt. |
function_call |
Dieses Feld ist veraltet, wird aber für Abwärtskompatibilität unterstützt. |
functions |
Dieses Feld ist veraltet, wird aber für Abwärtskompatibilität unterstützt. |
Wenn Sie einen nicht unterstützten Parameter übergeben, wird er ignoriert.
Multimodale Eingabeparameter
Die Chat Completions API unterstützt ausgewählte multimodale Eingaben.
input_audio |
|
image_url |
|
Im Allgemeinen kann der Parameter data
ein URI oder eine Kombination aus MIME-Typ und base64-codierten Byte in der Form "data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>"
sein.
Eine vollständige Liste der MIME-Typen finden Sie unter GenerateContent
.
Weitere Informationen zur base64-Codierung von OpenAI finden Sie in der Dokumentation von OpenAI.
Informationen zur Verwendung finden Sie in unseren Beispielen für multimodale Eingaben.
Gemini-spezifische Parameter
Gemini unterstützt mehrere Funktionen, die in OpenAI-Modellen nicht verfügbar sind.
Diese Funktionen können weiterhin als Parameter übergeben werden, müssen aber in einem extra_content
oder extra_body
enthalten sein, da sie sonst ignoriert werden.
extra_body
Features
Fügen Sie ein google
-Feld für alle Gemini-spezifischen extra_body
-Funktionen ein.
{
...,
"extra_body": {
"google": {
...,
// Add extra_body features here.
}
}
}
safety_settings |
Dies entspricht SafetySetting von Gemini. |
cached_content |
Dies entspricht GenerateContentRequest.cached_content von Gemini. |
thinking_config |
Dies entspricht GenerationConfig.ThinkingConfig von Gemini. |
thought_tag_marker |
Wird verwendet, um die Überlegungen eines Modells von seinen Antworten zu trennen, wenn die Funktion „Thinking“ verfügbar ist. Wenn nicht angegeben, werden keine Tags für die Überlegungen des Modells zurückgegeben. Falls vorhanden, werden bei nachfolgenden Anfragen die Gedanken-Tags entfernt und die Gedanken entsprechend für den Kontext markiert. So bleibt der richtige Kontext für nachfolgende Anfragen erhalten. |
extra_part
Features
Mit extra_part
können Sie zusätzliche Einstellungen auf Part
-Ebene angeben.
Fügen Sie ein google
-Feld für alle Gemini-spezifischen extra_part
-Funktionen ein.
{
...,
"extra_part": {
"google": {
...,
// Add extra_part features here.
}
}
}
extra_content |
Ein Feld zum Hinzufügen von Gemini-spezifischen Inhalten, die nicht ignoriert werden sollten. |
thought |
Damit wird explizit angegeben, ob ein Feld ein Gedanke ist. Diese Angabe hat Vorrang vor thought_tag_marker . Sie sollte verwendet werden, um anzugeben, ob ein Tool-Aufruf Teil eines Gedankens ist oder nicht. |
Nächste Schritte
- Weitere Informationen zur Authentifizierung und zu Anmeldedaten mit der OpenAI-kompatiblen Syntax
- Hier finden Sie Beispiele für das Aufrufen der Chat Completions API mit der OpenAI-kompatiblen Syntax.
- Hier finden Sie Beispiele für das Aufrufen der Inference API mit der OpenAI-kompatiblen Syntax.
- Hier finden Sie Beispiele für das Aufrufen der Function Calling API mit OpenAI-kompatibler Syntax.
- Weitere Informationen zur Gemini API
- Weitere Informationen zur Migration von Azure OpenAI zur Gemini API