Mistral AI-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Mistral AI-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Mistral AI-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.
Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.
Sie zahlen für Mistral AI-Modelle, sobald Sie sie verwenden (Pay-as-you-go). Die „Pay-as-you-go“-Preise finden Sie in den Preisen des Mistral AI-Modells auf der Preisseite für Vertex AI.
Verfügbare Mistral AI-Modelle
Die folgenden Modelle sind von Mistral AI zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Mistral AI-Modell zuzugreifen.
Mistral OCR (25.05)
Mistral OCR (25.05) ist eine API zur optischen Zeichenerkennung (Optical Character Recognition, OCR) für das Dokumentverständnis. Mistral OCR (25.05) kann komplexe Dokumentelemente wie verschachtelte Bilder, mathematische Ausdrücke, Tabellen und erweiterte Layouts wie die LaTeX-Formatierung sehr gut erkennen. Das Modell ermöglicht ein besseres Verständnis von umfangreichen Dokumenten wie wissenschaftlichen Artikeln mit Diagrammen, Grafiken, Gleichungen und Abbildungen.
Mistral OCR (25.05) ist ein ideales Modell für die Verwendung in Kombination mit einem RAG-System, das multimodale Dokumente (z. B. Präsentationen oder komplexe PDFs) als Eingabe verwendet.
Sie können Mistral OCR (25.05) mit anderen Mistral-Modellen kombinieren, um die Ergebnisse neu zu formatieren. Diese Kombination sorgt dafür, dass die extrahierten Inhalte nicht nur korrekt, sondern auch strukturiert und kohärent präsentiert werden, sodass sie für verschiedene nachgelagerte Anwendungen und Analysen geeignet sind.
Zur Modellkarte „Mistral OCR“ (25.05)
Mistral Small 3.1 (25.03)
Mistral Small 3.1 (25.03) bietet multimodale Funktionen und einen Kontext von bis zu 128.000 Tokens. Das Modell kann visuelle Eingaben und lange Dokumente verarbeiten und verstehen, wodurch sich die Anwendungsbereiche im Vergleich zum vorherigen Mistral AI Small-Modell noch einmal erweitern. Mistral Small 3.1 (25.03) ist ein vielseitiges Modell, das für verschiedene Aufgaben wie Programmieren, mathematisches Reasoning, Dokumentanalyse und Dialoge entwickelt wurde. Mistral Small 3.1 (25.03) wurde für Anwendungen mit niedriger Latenz entwickelt und bietet im Vergleich zu Modellen mit derselben Qualität eine erstklassige Effizienz.
Mistral Small 3.1 (25.03) wurde einem vollständigen Post-Training-Prozess unterzogen, um das Modell an menschliche Vorlieben und Bedürfnisse anzupassen. Dadurch ist es sofort für Anwendungen nutzbar, die Chat oder die genaue Befolgung von Anweisungen erfordern.
Zur Modellkarte „Mistral Small 3.1“ (25.03)
Mistral Large (24.11)
Mistral Large (24.11) ist die neueste Version des Large-Modells von Mistral AI mit verbesserten Schlussfolgerungs- und Funktionsaufruffunktionen.
- Agent-zentriert: Erstklassige Agent-Funktionen mit integriertem Funktionsaufruf und JSON-Ausgaben.
- Von Grund auf mehrsprachig: Dutzende von Sprachen werden unterstützt, darunter Deutsch, Englisch, Französisch, Spanisch, Italienisch, Chinesisch, Japanisch, Koreanisch, Portugiesisch, Niederländisch und Polnisch.
- Kompetent im Programmieren: Trainiert mit über 80 Programmiersprachen wie Python, Java, C, C++, JavaScript und Bash. Außerdem wurde es mit bestimmten Sprachen wie Swift und Fortran trainiert.
- Erweiterte Schlussfolgerungen: Modernste mathematische und inferentielle Fähigkeiten.
Zur Modellkarte „Mistral Large“ (24.11)
Codestral (25.01)
Codestral (25.01) wurde für Aufgaben zur Codegenerierung entwickelt. Sie hilft Entwicklern, Code über einen gemeinsamen API-Endpunkt für Anweisungen und Vervollständigungen zu schreiben und mit Code zu interagieren. Codestral (25.01) beherrscht Code und kann sich in verschiedenen Sprachen unterhalten. Damit können Sie als Softwareentwickler anspruchsvolle KI-Anwendungen entwickeln.
- Codestral (25.01) beherrscht mehr als 80 Programmiersprachen, darunter Python, Java, C, C++, JavaScript und Bash. Es schneidet auch bei spezifischeren Sprachen wie Swift und Fortran gut ab.
- Codestral (25.01) trägt dazu bei, die Produktivität von Entwicklern zu steigern und Fehler zu reduzieren: Codestral (25.01) kann Programmierfunktionen vervollständigen, Tests schreiben und beliebigen Teilcode mithilfe eines Fill-in-the-Middle-Mechanismus vervollständigen.
- Codestral (25.01) setzt mit nur 24 Milliarden Parametern und einem Kontextfenster von 128.000 einen neuen Standard für Leistung und Latenz.
Codestral (25.01) ist für die folgenden Anwendungsfälle optimiert:
- Generiert Code und bietet Codevervollständigung, Vorschläge und Übersetzungen.
- Fügt Code zwischen benutzerdefinierten Start- und Endpunkten ein. Das ist ideal für Aufgaben, bei denen ein bestimmtes Code-Snippet generiert werden muss.
- Fasst Ihren Code zusammen und erklärt ihn.
- Die Qualität Ihres Codes prüfen, indem Sie Ihren Code umstrukturieren, Fehler beheben und Testfälle generieren.
Zur Codestral-Modellkarte (25.01)
Mistral AI-Modelle verwenden
Sie können curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:
- Verwenden Sie für Mistral OCR (25.05)
mistral-ocr-2505
. - Verwenden Sie für Mistral Small 3.1 (25.03)
mistral-small-2503
. - Verwenden Sie für Mistral Large (24.11)
mistral-large-2411
. - Verwenden Sie für Mistral Nemo
mistral-nemo
. - Verwenden Sie für Codestral (25.01)
codestral-2501
.
Weitere Informationen zur Verwendung des Mistral AI SDK finden Sie in der Dokumentation zu Mistral AI Vertex AI.
Hinweise
Führen Sie die folgenden Schritte aus, um Mistral AI-Modelle mit Vertex AI zu verwenden. Die Vertex AI API (aiplatform.googleapis.com
) muss aktiviert sein, um Vertex AI verwenden zu können. Wenn Sie bereits ein Projekt mit aktivierter Vertex AI API haben, können Sie dieses Projekt verwenden, anstatt ein neues Projekt zu erstellen.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Rufen Sie eine der folgenden Model Garden-Modellkarten auf und klicken Sie auf Aktivieren:
- LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
- MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer
@
aus. - ROLE: Die einer Nachricht zugeordnete Rolle. Sie können
user
oderassistant
angeben. Die erste Nachricht muss die Rolleuser
verwenden. Die Modelle arbeiten mit abwechselndenuser
- undassistant
-Runden. Wenn die endgültige Nachricht die Rolleassistant
verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken. - STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie
true
fest, um die Antwort zu streamen, undfalse
, um die Antwort auf einmal zurückzugeben. - CONTENT: Der Inhalt, z. B. Text der
user
- oderassistant
-Nachricht. - MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
- LOCATION: Eine Region, die Mistral AI-Modelle unterstützt.
- MODEL: Der Modellname, den Sie verwenden möchten. Schließen Sie im Anfragetext die Modellversionsnummer
@
aus. - ROLE: Die einer Nachricht zugeordnete Rolle. Sie können
user
oderassistant
angeben. Die erste Nachricht muss die Rolleuser
verwenden. Die Modelle arbeiten mit abwechselndenuser
- undassistant
-Runden. Wenn die endgültige Nachricht die Rolleassistant
verwendet, wird der Antwortinhalt direkt vom Inhalt dieser Nachricht aus fortgesetzt. Damit können Sie einen Teil der Antwort des Modells einschränken. - STREAM: Ein boolescher Wert, mit dem angegeben wird, ob die Antwort gestreamt wird oder nicht. Streamen Sie Ihre Antwort, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Legen Sie
true
fest, um die Antwort zu streamen, undfalse
, um die Antwort auf einmal zurückzugeben. - CONTENT: Der Inhalt, z. B. Text der
user
- oderassistant
-Nachricht. - MAX_OUTPUT_TOKENS: Maximale Anzahl an Tokens, die in der Antwort generiert werden können. Ein Token besteht aus etwa 3,5 Zeichen. 100 Tokens entsprechen etwa 60–80 Wörtern.
Geben Sie kürzere Werte für kürzere Antworten und höhere Werte für längere Antworten an.
- QPM: 30
- Seiten pro Anfrage: 1.000 (1 Seite = 1 Million Eingabetokens und 1 Million Ausgabetokens)
- QPM: 30
- Seiten pro Anfrage: 1.000 (1 Seite = 1 Million Eingabetokens und 1 Million Ausgabetokens)
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
Streaming-Aufruf an ein Mistral AI-Modell senden
Im folgenden Beispiel wird ein Streaming-Aufruf an ein Mistral AI-Modell gesendet.
REST
Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
JSON-Text der Anfrage:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
Unären Aufruf an ein Mistral AI-Modell senden
Im folgenden Beispiel wird ein unärer Aufruf an ein Mistral AI-Modell ausgeführt.
REST
Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
JSON-Text der Anfrage:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
Verfügbarkeit und Kontingente der Mistral AI-Modellregion
Bei Mistral AI-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.
Modell | Region | Kontingente | Kontextlänge |
---|---|---|---|
Mistral OCR (25.05) | |||
us-central1 |
|
1.000 Seiten | |
europe-west4 |
|
1.000 Seiten | |
Mistral Small 3.1 (25.03) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Large (24.11) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Nemo | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Codestral (25.01) | |||
us-central1 |
|
32.000 | |
europe-west4 |
|
32.000 |
Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Mit Kontingenten arbeiten.