Costi di creazione ed esecuzione del deployment di modelli di IA in Vertex AI
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.
Ti viene addebitato solo il costo delle richieste che restituiscono un codice di risposta 200. Per le richieste che restituiscono altri codici di risposta, ad esempio 4xx e 5xx, non viene addebitato alcun costo per input o output.
Questa pagina illustra i prezzi dell'IA generativa su Vertex AI. Per tutti gli altri prezzi di Vertex AI, inclusi ML Platform e i servizi MLOps, consulta la pagina dei prezzi di Vertex AI.
Modelli Google
Gemini 2.5
Modello | Tipo | Prezzo (per 1 milione di token) <= 200.000 token di input | Prezzo (per 1 milione di token) > 200.000 token di input | Prezzo (per 1 milione di token) <= 200.000 token di input con l'API batch | Prezzo (per 1 milione di token) > 200.000 token di input con l'API batch |
---|---|---|---|---|---|
Gemini 2.5 Pro | |||||
Input (testo, immagine, video, audio) | $ 1,25 | 2,50 $ | $ 0,625 | $ 1,25 | |
Output di testo (risposta e ragionamento) | 10 $ | 15 $ | 5 $ | 7,50 $ | |
GA di Gemini 2.5 Flash |
|||||
Input (testo, immagine, video) | $ 0,30 | $ 0,30 | $ 0,15 | $ 0,15 | |
Input audio | 1 $ | 1 $ | 0,5 $ | 0,5 $ | |
Output di testo | $ 2,50 | $ 2,50 | $ 1,25 | $ 1,25 | |
Ottimizzazione per 1 milione di token di addestramento | $ 5,00 | N/D | N/A | N/D | |
Anteprima di Gemini 2.5 Flash (discontinued on 15/07/2025) |
|||||
Input (testo, immagine, video) | $ 0,15 | $ 0,15 | 0,075 $ | 0,075 $ | |
Input audio | 1 $ | 1 $ | 0,5 $ | 0,5 $ | |
Output di testo (nessun pensiero) | $ 0,60 | $ 0,60 | $ 0,30 | $ 0,30 | |
Output di testo (ragionamento e risposta) | $ 3,50 | $ 3,50 | $1,75 | $1,75 | |
API Gemini 2.5 Flash Live |
|||||
1 milione di token di testo di input | 0,5 $ | 0,5 $ | N/D | N/D | |
1 milione di token audio di input | $ 3 | $ 3 | N/D | N/D | |
1 milione di token video di input | $ 3 | $ 3 | N/D | N/D | |
1 milione di token di testo di output | 2 $ | 2 $ | N/D | N/D | |
1 milione di token audio di output | 12 $ | 12 $ | N/D | N/D | |
Gemini 2.5 Flash Lite |
|||||
Input (testo, immagine, video) | 0,1 $ | 0,1 $ | N/D | N/D | |
Input audio | 0,5 $ | 0,5 $ | N/D | N/D | |
Output di testo (risposta e ragionamento) | 0,4 $ | 0,4 $ | N/D | N/D | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash, 2.5 Flash e 2.5 Flash-Lite includono un totale di 1500 prompt basati su fatti al giorno senza costi aggiuntivi. Gemini 2.5 Pro include 10.000 prompt basati su fatti al giorno senza costi aggiuntivi. L'utilizzo di prompt basati su fatti reali che supera questi limiti prevede un addebito di 35$per 1000 prompt basati su fatti reali. Un prompt basato su dati è una richiesta inviata a Gemini che effettua una o più query alla Ricerca Google**. Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||||
Introduzione al web per le aziende |
45$per 1000 prompt basati su fatti reali. Un prompt con informazioni attendibili è una richiesta inviata a Gemini che effettua una o più query a Web Grounding per le aziende.** Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||||
Usa i tuoi dati per il grounding | 2,50 $ per 1000 richieste a partire dal 16 giugno 2025. |
* Se il contesto di input di una query è più lungo di 200.000 token, tutti i token (di input e output) vengono addebitati alle tariffe per contesto lungo.
** La funzionalità di verifica dei fatti con la Ricerca Google e la verifica dei fatti sul web per le aziende vengono fatturate solo quando un prompt restituisce correttamente risultati web (ovvero risultati contenenti almeno un URL di verifica dei fatti dal web). Le tariffe di utilizzo dei modelli Gemini si applicano separatamente.
Gemini 2.0
Gemini 2.0 viene fatturato in base ai token. Per calcolare il numero di token di input nella tua richiesta prima di inviarla, puoi utilizzare il tokenizzatore SDK o l'API countTokens. Se la tua richiesta non va a buon fine con un errore 400 o 500, non ti verrà addebitato il costo dei token utilizzati.
Utilizza il pulsante di attivazione/disattivazione nella tabella dei prezzi per confrontare i prezzi basati sui token e i prezzi basati sulla modalità.
Prezzi basati sui token
Modello | Tipo | Prezzo | Prezzi con l'API Batch |
---|---|---|---|
Gemini 2.0 Flash |
|||
1 milione di token di input | $ 0,15 | 0,075 $ | |
1 milione di token audio di input | 1,00 $ | $ 0,50 | |
1 milione di token di testo di output | $ 0,60 | $ 0,30 | |
Ottimizzazione per 1 milione di token di addestramento | $ 3,00 | ||
Creazione di immagini con Gemini 2.0 Flash |
|||
1 milione di token di input | $ 0,15 | ||
1 milione di token audio di input | 1,00 $ | ||
1 milione di token video di input | $ 3 | ||
1 milione di token di testo di output | $ 0,60 | ||
1 milione di token immagine di output | $ 30,00 | ||
API Gemini 2.0 Flash Live |
|||
1 milione di token di testo di input | 0,5 $ | ||
1 milione di token audio di input | $ 3 | ||
1 milione di token video di input | $ 3 | ||
1 milione di token di testo di output | 2 $ | ||
1 milione di token audio di output | 12 $ | ||
Gemini 2.0 Flash Lite |
|||
1 milione di token di input | 0,075 $ | $ 0,0375 | |
1 milione di token audio di input | 0,075 $ | $ 0,0375 | |
1 milione di token di testo di output | $ 0,30 | $ 0,15 | |
Ottimizzazione per 1 milione di token di addestramento | 1,00 $ | ||
Grounding con la Ricerca Google |
Gemini 2.0 Flash e 2.5 Flash includono un totale di 1500 prompt basati su fatti reali al giorno senza costi aggiuntivi. I prompt basati su fatti che superano questi limiti vengono fatturati al prezzo di 35$per 1000 prompt basati su fatti. Un prompt basato su dati è una richiesta inviata a Gemini che effettua una o più query alla Ricerca Google.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||
Introduzione al web per le aziende |
45$per 1000 prompt basati su fatti reali. Un prompt con informazioni verificate è una richiesta inviata a Gemini che esegue una o più query a Web Grounding per le aziende.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||
Usa i tuoi dati per il grounding | 2,50 $ per 1000 richieste a partire dal 16 giugno 2025. |
Prezzi basati sulla modalità
I prezzi delle modalità riportati di seguito sono indicativi e si basano su casi d'uso medi. La fatturazione effettiva sarà basata solo sui token:
- 4 caratteri corrispondono a circa 1 token di testo, inclusi gli spazi.
- Per un'immagine da 1024 x 1024, consuma 1290 token. Il conteggio dei token per immagine varia in base alla risoluzione dell'immagine. Per saperne di più su come calcolare i token, puoi consultare la nostra documentazione.
- L'input video consuma 258 token al secondo alla frequenza di campionamento di un fotogramma al secondo. Video con fatturazione audio per token video e audio.
- L'input audio consuma 25 token al secondo senza timestamp.
Modello | Tipo | Prezzo | Prezzi con l'API Batch |
---|---|---|---|
Gemini 2.0 Flash |
|||
Testo di input ($/M char) | $ 0,0375 | 0,01875 $ | |
Immagine di input ($/immagine) | 0,0001935 $ | 0,00009675 $ | |
Video di input ($/sec) | 0,0000387 $ | 0,00001935 $ | |
Audio di input ($/sec) | 0,000025 $ | 0,0000125 $ | |
Testo di output ($/M char) | $ 0,15 | 0,075 $ | |
Creazione di immagini con Gemini 2.0 Flash |
|||
Testo di input ($/M char) | $ 0,0375 | ||
Immagine di input ($/immagine) | 0,0001935 $ | ||
Video di input ($/sec) | 0,0000387 $ | ||
Audio di input ($/sec) | 0,000025 $ | ||
Testo di output ($/M char) | $ 0,15 | ||
Immagine di output image ($/immagine) | 0,04 $ | ||
Gemini 2.0 Flash Lite |
|||
Testo di input ($/M char) | 0,01875 $ | 0,009375 $ | |
Immagine di input ($/immagine) | 0,00009675 $ | 0,000048375 $ | |
Video di input ($/sec) | 0,00001935 $ | 0,000009675 $ | |
Audio di input ($/sec) | 0,000001875 $ | 0,000000938 $ | |
Testo di output ($/M char) | 0,075 $ | $ 0,0375 | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash e 2.5 Flash includono un totale di 1500 prompt basati su fatti reali al giorno senza costi aggiuntivi. I prompt basati su fatti che superano questi limiti vengono fatturati al prezzo di 35$per 1000 prompt basati su fatti. Un prompt basato su dati è una richiesta inviata a Gemini che effettua una o più query alla Ricerca Google.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||
Introduzione al web per le aziende |
45$per 1000 prompt basati su fatti reali. Un prompt con informazioni verificate è una richiesta inviata a Gemini che esegue una o più query a Web Grounding per le aziende.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU della piattaforma Cloud.
* I token di addestramento vengono calcolati moltiplicando il numero totale di token nel set di dati di addestramento per il numero di epoche.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* La funzionalità di verifica dei fatti con la Ricerca Google e la verifica dei fatti sul web per le aziende vengono addebitate solo quando un prompt restituisce correttamente risultati web (ovvero risultati che contengono almeno un URL di supporto per la verifica dei fatti dal web). Le tariffe di utilizzo dei modelli Gemini si applicano separatamente.
* API Gemini 2.0 Flash Live: 25 token al secondo di audio (input/output), 258 token al secondo di video (input). Grounding con la Ricerca Google rimane senza costi finché l'API Gemini 2.0 Flash Live è in anteprima.
Prezzi di Vertex AI Model Optimizer (sperimentale)*
Vertex AI Model Optimizer semplifica l'uso di Gemini per i clienti aziendali fornendo un singolo meta-endpoint per le richieste di modello Gemini. I clienti che utilizzano questo servizio non devono specificare se utilizzare Flash, Pro o una versione specifica. Invece, forniscono semplicemente un'impostazione configurabile (costo, qualità o equilibrio) per indicare le loro preferenze e Model Optimizer applica il giusto livello di intelligenza appropriato per l'attività inviando ogni query al modello più adatto.
Vertex AI Model Optimizer applica prezzi dinamici. Ciò significa che il prezzo medio per token dipende dal livello di intelligenza del modello applicato per completare l'attività. Per questo motivo, di seguito sono riportati esempi di prezzi per illustrare i possibili scenari in base alle impostazioni di configurazione (vedi le tabelle di seguito). Gli SKU di Model Optimizer sono SKU da 1 $che fungono da unità di acquisto per richiedere la fatturazione. La fatturazione avviene comunque in base al consumo, anche dopo aver utilizzato i modelli.
Rapporto I/O 5:1 | Esempio 1 chatbot |
NOTA: questi intervalli non sono garantiti, i risultati dei singoli clienti possono variare | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Preferenza del cliente | Token di input del cliente inviati al MO | Token di output del cliente inviati a MO | Prezzo di input medio per milione di token (intervallo massimo) | Prezzo di uscita medio per milione di token (intervallo massimo) | Prezzo di input medio per milione di token (gamma bassa) | Prezzo di output medio per milione di token (intervallo minimo) | |||||
Costo | 10.000.000 | 2.000.000 | 0,63 $ | $ 2,50 | 0,16 $ | 0,63 $ | |||||
Bilanciato | 10.000.000 | 2.000.000 | $ 1,26 | $ 5,00 | 0,63 $ | $ 2,50 | |||||
Qualità | 10.000.000 | 2.000.000 | 1,89 $ | $ 7,50 | $ 1,26 | $ 5,00 |
Rapporto I/O 1:20 | Esempio 2: generazione di contenuti | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Preferenza del cliente | Token di input del cliente inviati al MO | Token di output del cliente inviati a MO | Prezzo di input medio per milione di token (intervallo massimo) | Prezzo di uscita medio per milione di token (intervallo massimo) | Prezzo di input medio per milione di token (gamma bassa) | Prezzo di output medio per milione di token (intervallo minimo) | |||||
Costo | 1.000.000 | 20.000.000 | 0,63 $ | $ 2,50 | 0,16 $ | 0,63 $ | |||||
Bilanciato | 1.000.000 | 20.000.000 | $ 1,26 | $ 5,00 | 0,63 $ | $ 2,50 | |||||
Qualità | 1.000.000 | 20.000.000 | 1,89 $ | $ 7,50 | $ 1,26 | $ 5,00 |
Altri modelli Gemini
Tutti i modelli Gemini diversi da Gemini 2.0 vengono fatturati in base a modalità quali caratteri, immagini, secondi di video/audio. L'input di testo viene addebitato per ogni 1000 caratteri di input (prompt) e ogni 1000 caratteri di output (risposta). I caratteri vengono conteggiati in base ai punti di codice UTF-8 e gli spazi bianchi sono esclusi dal conteggio, per cui si ottengono circa 4 caratteri per token. Le richieste di previsione che portano a risposte filtrate vengono addebitate solo per l'input. Alla fine di ogni ciclo di fatturazione, le frazioni di un centesimo ($0,01) vengono arrotondate a un centesimo. L'input multimediale viene addebitato per immagine o per secondo (video). Se la tua richiesta non va a buon fine con un errore 400 o 500, non ti verrà addebitato alcun costo per i token utilizzati.
Modello | Funzionalità | Tipo | Prezzo ( =< 128.000 token di input) |
Prezzo ( > 128.000 token di input) |
||
---|---|---|---|---|---|---|
Flash Gemini 1.5 | Multimodale | Input immagine Input video Input di testo Input audio |
$0,00002 per immagine $0,00002 al secondo $0,00001875 per 1000 caratteri $0,000002 al secondo |
$0,00004 per immagine $0,00004 al secondo $0,0000375 per 1000 caratteri $0,000004 al secondo |
||
Output di testo | $0,000075 per 1000 caratteri | $0,00015 per 1000 caratteri | ||||
Ottimizzazione* | Token di formazione | $8 per M token | ||||
Gemini 1.5 Pro | Multimodale | Input immagine Input video Input di testo Input audio |
$0,00032875 per immagine $0,00032875 al secondo $0,0003125 per 1000 caratteri $0,00003125 al secondo |
$0,0006575 per immagine $0,0006575 al secondo $0,000625 per 1000 caratteri $0,0000625 al secondo |
||
Output di testo | $0,00125 per 1000 caratteri | $0,0025 per 1000 caratteri | ||||
Ottimizzazione* | Token di formazione | $80 / M token | ||||
Gemini 1.0 Pro | Multimodale | Input immagine Input video Input di testo |
$0,0025 per immagine $0,002 al secondo $0,000125 per 1000 caratteri |
|||
Output di testo | $0,000375 per 1000 caratteri | |||||
Grounding con la Ricerca Google | Testo | 35$per 1000 prompt basati su fatti reali. Un prompt basato su dati è una richiesta inviata a Gemini che effettua una o più query alla Ricerca Google.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||||
Web Grounding per le aziende | Testo | 45$per 1000 prompt basati su fatti reali. Un prompt con informazioni attendibili è una richiesta inviata a Gemini che esegue una o più query su Web Grounding per le aziende.* Anche se vengono inviate più query di ricerca alla Ricerca Google, viene addebitato un solo importo per un prompt basato su fatti. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di prompt basati su fatti al giorno. |
||||
Usa i tuoi dati per il grounding | Testo | 2,5 $ per 1000 richieste a partire dal 16 giugno 2025. |
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU della piattaforma Cloud.
* Se il contesto di una query è più lungo di 128.000 token, tutti i token vengono addebitati alle tariffe per contesto lungo.
* I modelli Gemini sono disponibili in modalità batch con uno sconto del 50%.
* Gemini 1.0 Pro supporta solo una finestra contestuale fino a 32.000 token.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* La funzionalità di verifica dei fatti con la Ricerca Google e la verifica dei fatti sul web per le aziende vengono fatturate solo quando un prompt restituisce correttamente risultati web (ovvero risultati che contengono almeno un URL di verifica dei fatti dal web). Le tariffe di utilizzo dei modelli Gemini si applicano separatamente.
Imagen
Con Imagen su Vertex AI, puoi generare immagini originali e modificarle in base ai prompt di testo che fornisci o modificare solo parti delle immagini utilizzando un'area mascherata che definisci, oltre a una serie di altre funzionalità.
Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
---|---|---|---|---|---|
Imagen 4 Ultra | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | 0,06 $ per immagine |
Immagine 4 | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.04 per immagine |
Imagen 4 veloce | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.02 per immagine |
immagine 3 | Generazione di immagini | Genera un'immagine Modifica un'immagine Personalizza un'immagine |
Prompt di testo | Immagine | $0.04 per immagine |
Imagen 3 Fast | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.02 per immagine |
Imagen 2, | Generazione di immagini | Genera un'immagine | Prompt di testo | Immagine | $0.020 per immagine |
Modifica delle immagini | Modifica un'immagine usando l'approccio senza maschera o con maschera | Prompt immagine/testo | Immagine | $0.020 per immagine | |
Upscale | Aumenta la risoluzione di un'immagine generata a 2k e 4k | Immagine | Immagine | $0.003 per immagine | |
Ottimizzazione | Attiva un "argomento" fornito dall'utente da utilizzare nei prompt di Imagen (addestramento few-shot) | Soggetto/i con identificatore di testo e 4-8 immagini per soggetto | Modello perfezionato (dopo l'addestramento con soggetti forniti dall'utente) | $ per ora nodo (prezzi dell'addestramento personalizzato di Vertex AI) | |
Didascalie visive | Genera una didascalia di testo breve o estesa per un'immagine | Immagine | Didascalia | $0.0015/immagine | |
Visual Question Answering | Fornire una risposta basata su una domanda che fa riferimento a un'immagine | Prompt immagine/testo | Risposta | $0.0015/immagine |
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform .
Veo
Veo 2 crea video di qualità eccezionalmente elevata in un'ampia gamma di soggetti e stili, migliorando la comprensione della fisica del mondo reale e delle sfumature del movimento e dell'espressione umana.
Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
---|---|---|---|---|---|
Veo 3 - Fast | Generazione di video | Genera video da un prompt di testo o un'immagine di riferimento | Prompt di testo/immagine | Video | 0,50 $/secondo |
Veo 3 - Fast | Generazione di video e audio | Genera video con effetti audio/parlato sincronizzati da un prompt di testo o un'immagine di riferimento | Prompt di testo/immagine | Video + audio | 0,75 $ al secondo |
Veo 2 - Fast | Generazione di video | Genera video da un prompt di testo o un'immagine di riferimento | Prompt di testo/immagine | Video | 0,50 $/secondo |
Veo 2 - Fast | Controlli avanzati | Genera video tramite interpolazione dei fotogrammi di inizio e fine, estendi i video generati e applica i controlli della fotocamera | Prompt di testo/immagine/video | Video | 0,50 $/secondo |
Lyria
Lyria 2 offre una generazione di musica strumentale di alta qualità ideale per una composizione sofisticata e un'esplorazione creativa dettagliata in cui l'output con sfumature è fondamentale.
Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
---|---|---|---|---|---|
Lyria 2 | Generazione di musica | Genera musica da un prompt di testo | Prompt di testo | Musica | 0,06 $ ogni 30 secondi |
Comprendere i costi di incorporazione per le tue applicazioni AI
Modello | Tipo | Regione | Prezzo per 1000 token di input |
---|---|---|---|
Incorporazione di Gemini | Input | Globale |
|
Output | Globale |
|
Modello | Tipo | Regione | Prezzo per 1000 caratteri |
---|---|---|---|
Incorporamenti per il testo (esclusa l'implementazione di Gemini) |
Input | Globale |
|
Output | Globale |
|
Modello | Funzionalità | Descrizione | Input | Output | Prezzo |
---|---|---|---|---|---|
rappresentazione multimodale | Embedding per multimodale: testo | Generare rappresentazioni distribuite utilizzando il testo come input | Testo | Incorporamenti | $0.0002 per 1000 caratteri inseriti |
Incorporamenti per multimodale: immagine | Generare rappresentazioni nidificate utilizzando l'immagine come input | Immagine | Incorporamenti | $0.0001 per immagine in input | |
Incorporamenti per multimodale: Video Plus | Video Plus | Video | Embedding (fino a 15 per minuto di video) | $0.0020 per secondo di video | |
Embedding per multimodale: standard video | Video standard | Video | Embedding (fino a 8 per minuto di video) | $0,0010 per secondo di video | |
Embedding per il multimodale: video essenziale | Video di base | Video | Embedding (fino a 4 per minuto di video) | $0.0005 per secondo di video |
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform .
Prezzi per il completamento del codice di Vertex AI
L'IA generativa su Vertex AI prevede addebiti per ogni 1000 caratteri di input (prompt) e per ogni 1000 caratteri di output (risposta). I caratteri vengono conteggiati in base ai punti di codice UTF-8 e gli spazi bianchi sono esclusi dal conteggio. Durante la fase di Anteprima, gli addebiti sono scontati al 100%. Le richieste di previsione che generano risposte filtrate vengono addebitate solo per l'input. Alla fine di ogni ciclo di fatturazione, le frazioni di un centesimo (0,01 $) vengono arrotondate a un centesimo.
Modello | Tipo | Regione | Prezzo per 1000 caratteri |
---|---|---|---|
Codey per il completamento del codice | Input | Globale |
|
Output | Globale |
|
I prezzi sono indicati in dollari statunitensi (USD). Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform .
Traduzione (testo)
Utilizza l'API Vertex AI e il modello LLM di Translation per tradurre il testo. Le traduzioni LLM tendono ad essere più fluide e dal suono più umano rispetto ai modelli di traduzione classici, ma hanno una copertura linguistica più limitata (Scopri di più).
Modello | Metodo | Utilizzo | Prezzo per milione di caratteri |
---|---|---|---|
LLM | Traduzione di testi* | Il numero di caratteri immessi al mese |
$10 ogni milione di caratteri* |
Il numero di caratteri di output al mese |
$10 ogni milione di caratteri* |
I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU della piattaforma Cloud.
* Il prezzo viene calcolato per ogni carattere elaborato dal modello. Per informazioni dettagliate sui caratteri conteggiati, consulta Caratteri addebitati
Ottimizza i costi con la memorizzazione nella cache del contesto di Vertex AI
Con la memorizzazione nella cache del contesto, puoi ridurre il costo dell'elaborazione del token di input di Gemini del 75% e la latenza della generazione di contenuti memorizzando nella cache la parte di contesto del tuo testo di input o dei tuoi contenuti multimediali nei modelli di Gemini. La quantità di tempo in cui i dati vengono archiviati nella cache, che può essere controllata dall'utente, determina gli addebiti per "Spazio di archiviazione della cache dei contesti". Quando viene creato un contesto nella cache, agli utenti verrà addebitato il costo standard del token di input. Gli hit della cache sui dati di input vengono addebitati a una tariffa ridotta, denominata "Input memorizzato nella cache", invece del normale costo di input. Le dimensioni dei dati per archiviazione e input vengono calcolate nello stesso modo dei prezzi di input di Gemini.
Modelli Gemini 2.5
Modello | Funzionalità | Tipo | Prezzo (per 1 milione di token) <= 200.000 token di input |
Prezzo (per 1 milione di token) > 200.000 token di input |
---|---|---|---|---|
Gemini 2.5 Pro | Input memorizzato nella cache | Input (testo, immagine, video, audio) | 0,31 $ (per 1 milione di token) | 0,625 $ (per 1 milione di token) |
Output | N/D | N/D | ||
Spazio di archiviazione della cache del contesto | Input (testo, immagine, video, audio) | 4,50 $ (per milione di token/ora) | 4,50 $ (per milione di token/ora) | |
Flash Gemini 2.5 | Input memorizzato nella cache | Input (testo, immagine, video, audio) | 0,0375 $ (per 1 milione di token) | 0,0375 $ (per 1 milione di token) |
Output | N/D | N/D | ||
Spazio di archiviazione della cache del contesto | Input (testo, immagine, video, audio) | 1 $ (/M Tok/h) | 1 $ (/M Tok/h) |
Modelli Gemini 2.0
Prezzi basati sui token
Modello |
Tipo |
Spazio di archiviazione (M di TB-ora) |
Prezzo |
---|---|---|---|
Gemini 2.0 Flash |
|||
1 milione di token di input | 1,00 $ | $ 0,0375 | |
1 milione di token audio di input | 1,00 $ | 0,25 $ | |
1 milione di token di testo di output | NA | NA | |
Gemini 2.0 Flash Lite |
|||
1 milione di token di input | 1,00 $ | 0,01875 $ | |
1 milione di token audio di input | 1,00 $ | 0,01875 $ | |
1 milione di token di testo di output | NA | NA |
Prezzi basati sulla modalità
I prezzi delle modalità riportati di seguito sono indicativi e si basano su casi d'uso medi. La fatturazione effettiva sarà basata solo sui token:
- 4 caratteri corrispondono a circa 1 token di testo, inclusi gli spazi.
- Per un'immagine da 1024 x 1024, consuma 1290 token. Il conteggio dei token per immagine varia in base alla risoluzione dell'immagine. Per saperne di più su come calcolare i token, puoi consultare la nostra documentazione.
- L'input video consuma 258 token al secondo alla frequenza di campionamento di un fotogramma al secondo. Video con fatturazione audio sia per i token video che per i token audio.
- L'input audio consuma 25 token al secondo senza timestamp.
Modello |
Tipo |
Spazio di archiviazione (Modality-hour) |
Prezzo |
---|---|---|---|
Gemini 2.0 Flash |
|||
Inserisci testo ($/M char) | 0,25 $ | 0,009375 $ | |
Immagine di input ($/immagine) | 0,00129 $ | 0,000048375 $ | |
Video di input ($/sec) | 0,000258 $ | 0,000009675 $ | |
Audio di input ($/sec) | 0,000025 $ | 0,00000625 $ | |
Testo di output ($/M char) | NA | NA | |
Gemini 2.0 Flash Lite |
|||
Inserisci testo ($/M char) | 0,25 $ | 0,0046875 $ | |
Immagine di input ($/immagine) | 0,00129 $ | 0,0000241875 $ | |
Video di input ($/sec) | 0,000258 $ | 0,000009675 $ | |
Audio di input ($/sec) | 0,000258 $ | 0,0000048375 $ | |
Testo di output ($/M char) | NA | NA | |
Grounding con la Ricerca Google |
Gemini 2.0 Flash include fino a 1500 richieste con base di fatto al giorno senza costi aggiuntivi. Le richieste che superano le 1500 al giorno vengono fatturate a 35 $per 1000 richieste (fino a 1 milione di richieste al giorno). Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di richieste al giorno. |
||
Web di base per le aziende |
45 $ per 1000 richieste (fino a 1 milione di richieste al giorno) a partire dal 5 maggio 2025. Contatta il team dedicato al tuo account se hai bisogno di più di 1 milione di richieste al giorno. |
* I prezzi sono indicati in dollari statunitensi (USD).
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU della piattaforma Cloud.
* I PDF vengono fatturati come input di immagini, con una pagina PDF equivalente a un'immagine.
* L'endpoint del modello ottimizzato ha lo stesso prezzo di previsione del modello di base.
* La funzionalità di verifica dei contenuti con la Ricerca Google viene addebitata solo per le richieste che restituiscono risultati contenenti almeno un URL di supporto per la verifica dei contenuti dal web. Si applicano anche le tariffe standard per l'utilizzo del modello Gemini.
Throughput riservato
La portata sottoposta a provisioning assicura la portata per le tue esigenze di AI generativa e viene gestita tramite unità della scala di AI generativa, o GSU. Scopri di più sulla quantità di throughput fornita da ciascun GSU qui e utilizza il nostro strumento di stima online qui.
Durata | Prezzo per GSU | Per |
---|---|---|
Commit di 1 settimana | 1200 $ | Settimana |
Impegno di 1 mese | 2700 $ | Mese |
impegno di 3 mesi | 2400 $ | Mese |
Impegno di 1 anno | $ 2000 | Mese |
Esempio di calcolo dei costi
Un utente deve garantire il supporto di 10 query al secondo (QPS) di una query con un input di 1000 token di testo e 500 token audio e ricevere un output di 300 token di testo utilizzando gemini-2.0-flash.
Utilizzando la tabella della velocità effettiva e del tasso di riduzione per gemini-2.0-flash, sappiamo che il tasso di riduzione di un token di testo di input è 1 token, il tasso di riduzione di un token di input audio è 7 token e il tasso di riduzione di un token di testo di output è 4 token.
Il totale dei token di input dell'utente è 1000* (1 token per token di testo di input) + 500* (7 token per token di input audio) = 4500 token di input corretti per burndown. Il totale dei token di output dell'utente è 300* (4 token per token di testo di output) = 1200 token di output corretti per burndown. Se sommiamo questi due valori, otteniamo 4500 token di input corretti per burndown + 1200 token di output corretti per burndown = 5700 token totali per query.
Moltiplicando il numero totale di token per query per il numero di QPS, otteniamo 5700 token totali per query * 10 QPS = 57.000 token totali al secondo.
Dividendo questo valore per la velocità effettiva totale al secondo per GSU,otteniamo 57.000 token totali al secondo ÷ 3.360 velocità effettiva al secondo per GSU = 16,96 GSU. L'incremento minimo di acquisto di GSU per questo modello è 1, quindi l'utente avrebbe bisogno di 17 GSU.
Se l'utente volesse sostenere questa velocità effettiva per 1 settimana, il costo sarebbe di 1200 $ * 17 GSU = 20.400 $a settimana. Se avessero voluto sostenere questa velocità effettiva per 1 mese, il costo sarebbe stato di 2700 $ * 17 GSU = 45.900 $al mese. Se avesse voluto sostenere questa velocità effettiva per 3 mesi, il costo sarebbe stato di 2400 $ * 17 GSU = 40.800 $al mese. Infine, se volesse sostenere questo throughput per un anno, il costo sarebbe di 2000 $ * 17 GSU = 34.000 $al mese.
Confronta i prezzi per i modelli dei partner su Vertex AI
I modelli dei partner sono un elenco selezionato di modelli di AI generativa sviluppati dai partner di Google. I modelli dei partner vengono offerti come API gestite. Per ulteriori informazioni, vedi Panoramica dei modelli dei partner. Le sezioni seguenti riportano i dettagli dei prezzi per i modelli di partner Google.
Modelli di AI21 Labs
Modello | Prezzi |
---|---|
Jamba 1.5 large | Input: $2 / milione di token Output: $8 / milione di token |
Jamba 1,5 Mini | Input: $0.20 / milione di token Output: $0.40 / milione di token |
Modelli Claude di Anthropic
Modello | Prezzi |
---|---|
Claude Opus 4 | Input: 15 $ / milione di token Output: 75 $ / milione di token In batch: 7,50 $ / milione di token In batch: 37,50 $ / milione di token Scrivi nella cache: 18,75 $ / milione di token Cache a colpo: 1,50 $ / milione di token Scrivi nella cache in batch: 9,375 $ / milione di token Cache a colpo in batch: 0,75 $ / milione di token |
Claude Sonnet 4 | Input: $3 / milione di token Output: $15 / milione di token Input in batch: $1.50 / milione di token Output in batch: $7.50 / milione di token Scrittura nella cache: $3.75 / milione di token Hit nella cache: $0.30 / milione di token Scrittura nella cache in batch: $1.875 / milione di token Hit nella cache in batch: $0.15 / milione di token |
Claude 3.7 Sonnet | Input: $3 / milione di token Output: $15 / milione di token Input in batch: $1.50 / milione di token Output in batch: $7.50 / milione di token Scrittura nella cache: $3.75 / milione di token Hit nella cache: $0.30 / milione di token Scrittura nella cache in batch: $1.875 / milione di token Hit nella cache in batch: $0.15 / milione di token |
Claude 3.5 Haiku | Input: $0.80 / milione di token Output: $4 / milione di token Input batch: $0.40 / milione di token Output batch: $2 / milione di token Cache write: $1 / milione di token Cache hit: $0.08 / milione di token Cache batch: $0.50 / milione di token Cache batch hit: $0.04 / milione di token |
Claude 3.5 Sonnet v2 | Input: $3 / milione di token Output: $15 / milione di token Input in batch: $1.50 / milione di token Output in batch: $7.50 / milione di token Scrittura nella cache: $3.75 / milione di token Hit nella cache: $0.30 / milione di token Scrittura nella cache in batch: $1.875 / milione di token Hit nella cache in batch: $0.15 / milione di token |
Claude 3.5 Sonnet | Input: 3 $ / milione di token Output: 15 $ / milione di token Scrittura nella cache: 3,75 $ / milione di token Colpo a segno nella cache: 0,30 $ / milione di token |
Claude 3 Haiku | Input: 0,25 $ / milione di token Output: 1,25 $ / milione di token Scrittura nella cache: 0,30 $ / milione di token Colpo a segno nella cache: 0,03 $ / milione di token |
Claude 3 Sonnet (deprecated) | Input: $3 / milione di token Output: $15 / milione di token |
Claude 3 Opus | Input: 15 $ / milione di token Output: 75 $ / milione di token Scrittura nella cache: 18,75 $ / milione di token Colpo a segno nella cache: 1,50 $ / milione di token |
Modelli Llama di Meta
Modello | Prezzi |
---|---|
Llama 3.1 405B | Input: $5.00 / milione di token Output: $16.00 / milione di token |
Llama 3.3 70B * | Input: 0,72 $ / milione di token Output: 0,72 $ / milione di token |
Scout Llama 4 * | Input: 0,25 $ / milione di token Output: 0,70 $ / milione di token |
Llama 4 Maverick * | Input: 0,35 $ / milione di token Output: 1,15 $ / milione di token |
- Disponibile senza costi aggiuntivi fino al 1° maggio 2025.
Modelli di Mistral AI
Modello | Prezzi |
---|---|
Mistral OCR (25.05) | Input: 0,0005 $ / milione di token (o 0,0005 $/pagina) Output: 0,0005 $ / milione di token (o 0,0005 $/pagina) |
Mistral Small 3.1 (25.03) | Input: 0,10 $ / milione di token Output: 0,30 $ / milione di token |
Mistral Large (24,11) | Input: $2.00 / milione di token Output: $6.00 / milione di token |
Mistral | Input: $0.15 / milione di token Output: $0.15 / milione di token |
Codestral (25.01) | Input: $0.30 / milione di token Output: $0.90 / milione di token |