I modelli Mistral AI su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Mistral AI su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Mistral AI utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.
Paghi i modelli Mistral AI man mano che li utilizzi (pagamento a consumo). Per i prezzi pay-as-you-go, consulta i prezzi dei modelli Mistral AI nella pagina Prezzi di Vertex AI.
Modelli Mistral AI disponibili
I seguenti modelli sono disponibili da Mistral AI per l'utilizzo in Vertex AI. Per accedere a un modello di Mistral AI, vai alla relativa scheda del modello Model Garden.
OCR Mistral (25/05)
Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Mistral OCR (25.05) eccelle nella comprensione di elementi complessi dei documenti, tra cui immagini intercalate, espressioni matematiche, tabelle e layout avanzati come la formattazione LaTeX. Il modello consente una comprensione più approfondita di documenti complessi come articoli scientifici con grafici, equazioni e figure.
Mistral OCR (25.05) è un modello ideale da utilizzare in combinazione con un sistema RAG che accetta come input documenti multimodali (come slide o PDF complessi).
Puoi accoppiare Mistral OCR (25.05) con altri modelli Mistral per riformattare i risultati. Questa combinazione garantisce che i contenuti estratti non siano solo accurati, ma anche presentati in modo strutturato e coerente, rendendoli adatti a varie applicazioni e analisi downstream.
Vai alla scheda del modello Mistral OCR (25.05)
Mistral Small 3.1 (25/03)
Mistral Small 3.1 (25/03) offre funzionalità multimodali e un contesto fino a 128.000. Il modello può elaborare e comprendere input visivi e documenti lunghi, ampliando ulteriormente la sua gamma di applicazioni rispetto al precedente modello Mistral AI Small. Mistral Small 3.1 (25/03) è un modello versatile progettato per varie attività come programmazione, ragionamento matematico, comprensione di documenti e dialogo. Mistral Small 3.1 (25/03) è progettato per applicazioni a bassa latenza per offrire un'efficienza migliore rispetto ai modelli della stessa qualità.
Mistral Small 3.1 (25/03) è stato sottoposto a un processo di post-training completo per allineare il modello alle preferenze e alle esigenze umane, rendendolo utilizzabile immediatamente per applicazioni che richiedono chat o istruzioni precise.
Vai alla scheda del modello Mistral Small 3.1 (25.03)
Mistral Large (24.11)
Mistral Large (24.11) è l'ultima versione del modello Large di Mistral AI, ora con funzionalità di ragionamento e chiamate di funzione migliorate.
- Centrico sull'agente: funzionalità di agente best-in-class con chiamate di funzioni e output JSON integrati.
- Multilingue per progettazione: decine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco
- Competente nella programmazione: addestrato su oltre 80 linguaggi di programmazione, tra cui Python, Java, C, C++, JavaScript e Bash. Inoltre, è stato addestrato su linguaggi più specifici come Swift e Fortran
- Ragionamento avanzato: funzionalità matematiche e di ragionamento all'avanguardia.
Vai alla scheda del modello Mistral Large (24.11)
Codestral (25.01)
Codestral (25.01) è progettato per attività di generazione di codice. Aiuta gli sviluppatori a scrivere e interagire con il codice tramite un endpoint API di istruzioni e completamento condiviso. Poiché padroneggia il codice e la capacità di conversare in una varietà di lingue, puoi utilizzare Codestral (25.01) per progettare applicazioni di AI avanzate per sviluppatori di software.
- Codestral (25.01) conosce più di 80 linguaggi di programmazione, tra cui Python, Java, C, C++, JavaScript e Bash. Funziona bene anche con linguaggi più specifici come Swift e Fortran.
- Codestral (25.01) contribuisce a migliorare la produttività degli sviluppatori e a ridurre gli errori: Codestral (25.01) può completare le funzioni di programmazione, scrivere test e completare qualsiasi codice parziale utilizzando un meccanismo di riempimento.
- Codestral (25.01) offre un nuovo standard in termini di prestazioni e latenza con soli 24 miliardi di parametri e una finestra contestuale di 128.000 token.
Codestral (25.01) è ottimizzato per i seguenti casi d'uso:
- Genera codice e fornisce completamento, suggerimenti e traduzione del codice.
- Aggiunge codice tra i punti di inizio e fine definiti dall'utente, il che lo rende ideale per le attività che richiedono la generazione di un codice specifico.
- Riassumere e spiegare il codice.
- Esamina la qualità del codice aiutando a eseguire il refactoring, correggere i bug e generare casi di test.
Vai alla scheda del modello Codestral (25.01)
Utilizzare i modelli Mistral AI
Puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli:
- Per Mistral OCR (25.05), utilizza
mistral-ocr-2505
- Per Mistral Small 3.1 (25/03), utilizza
mistral-small-2503
- Per Mistral Large (24.11), utilizza
mistral-large-2411
- Per Mistral Nemo, utilizza
mistral-nemo
- Per Codestral (25.01), utilizza
codestral-2501
Per ulteriori informazioni sull'utilizzo dell'SDK Mistral AI, consulta la documentazione di Mistral AI Vertex AI.
Prima di iniziare
Per utilizzare i modelli Mistral AI con Vertex AI, devi eseguire i
seguenti passaggi. L'API Vertex AI
(aiplatform.googleapis.com
) deve essere abilitata per utilizzare
Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzare questo progetto anziché crearne uno nuovo.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Vai a una delle seguenti schede del modello Model Garden, poi fai clic su Attiva:
- LOCATION: una regione che supporta i modelli di Mistral AI.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del modello
@
. - ROLE: Il ruolo associato a un
messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli funzionano con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo prompt per vincolare una parte della risposta del modello. - STREAM: un valore booleano che specifica
se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su
true
per trasmettere in streaming la risposta e sufalse
per restituire la risposta tutta in una volta. - CONTENT: i contenuti, ad esempio
il testo, del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
- LOCATION: una regione che supporta i modelli di Mistral AI.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del modello
@
. - ROLE: Il ruolo associato a un
messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli funzionano con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, il contenuto della risposta continua immediatamente dal contenuto di quel messaggio. Puoi utilizzare questo prompt per vincolare una parte della risposta del modello. - STREAM: un valore booleano che specifica
se la risposta viene trasmessa in streaming o meno. Trasmetti in streaming la risposta per ridurre la percezione della latenza di utilizzo finale. Imposta su
true
per trasmettere in streaming la risposta e sufalse
per restituire la risposta tutta in una volta. - CONTENT: i contenuti, ad esempio
il testo, del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
- QPM: 30
- Pagine per richiesta: 1000 (1 pagina = 1 milione di token di input e 1 milione di token di output)
- QPM: 30
- Pagine per richiesta: 1000 (1 pagina = 1 milione di token di input e 1 milione di token di output)
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
Fai una chiamata di streaming a un modello Mistral AI
L'esempio seguente esegue una chiamata di streaming a un modello Mistral AI.
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Fai una chiamata unaria a un modello Mistral AI
L'esempio seguente esegue una chiamata unaria a un modello Mistral AI.
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità e quote per la regione del modello Mistral AI
Per i modelli Mistral AI, si applica una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). Il TPM include sia i token di input che di output.
Modello | Regione | Quote | Lunghezza del contesto |
---|---|---|---|
OCR Mistral (25/05) | |||
us-central1 |
|
1000 pagine | |
europe-west4 |
|
1000 pagine | |
Mistral Small 3.1 (25/03) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Large (24.11) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Nemo | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Codestral (25.01) | |||
us-central1 |
|
32.000 | |
europe-west4 |
|
32.000 |
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.