Modelli Google
Il throughput riservato supporta solo i modelli che chiami direttamente
dal tuo progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare
Provisioned Throughput per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad esempio gemini-2.0-flash-001
) e non un
alias della versione del modello.
Inoltre, il throughput di cui è stato eseguito il provisioning non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash durante l'utilizzo di Vertex AI Search, l'ordine di throughput di cui è stato eseguito il provisioning per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.
La tabella seguente mostra la velocità effettiva, l'incremento di acquisto e i tassi di esaurimento per i modelli Google che supportano la velocità effettiva di cui è stato eseguito il provisioning. Il throughput al secondo è definito come l'input del prompt e l'output generato in tutte le richieste al secondo.
Per scoprire quanti token richiede il tuo workload, consulta il tokenizzatore SDK o l'API countTokens.
Modello | Throughput al secondo per GSU | Unità | Incremento minimo di acquisto di GSU | Tassi di esaurimento |
---|---|---|---|---|
Gemini 2.5 Flash-Lite Ultima versione supportata: |
8070 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 5 token 1 token di testo di risposta di output = 4 token |
Gemini 2.5 Pro Ultima versione supportata: |
650 | Token | 1 |
Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 8 token 1 token di testo di ragionamento di output = 8 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 12 token 1 token di testo di ragionamento di output = 12 token |
Gemini 2.5 Flash Ultima versione supportata: |
2690 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 4 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token |
Gemini 2.0 Flash Ultima versione supportata: |
3360 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token video di input = 1 token 1 token audio di input = 7 token 1 token di testo di output = 4 token |
Gemini 2.0 Flash-Lite Ultima versione supportata: |
6720 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token |
Imagen 3 | 0,025 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Imagen 3 Fast | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Imagen 2 | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Modifica di Imagen 2 | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
MedLM medium | 2000 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 2 caratteri |
MedLM large | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
MedLM large 1.5 | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni su disponibilità e date di ritiro dei modelli, consulta la pagina Modelli Google.
Per ulteriori informazioni sulle località supportate, consulta Località disponibili.
Supporto del modello di endpoint globale
Il throughput riservato supporta l'endpoint globale per i seguenti modelli:
Modello | Ultima versione del modello supportata |
---|---|
Gemini 2.5 Flash-Lite (anteprima) | gemini-2.5-flash-lite-preview-06-17 |
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash | gemini-2.5-flash |
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Il traffico che supera la quota di throughput di cui è stato eseguito il provisioning utilizza l'endpoint globale per impostazione predefinita.
Per assegnare il throughput di cui è stato eseguito il provisioning all'endpoint globale di un modello,
seleziona global
come regione quando effettui un ordine di throughput di cui è stato eseguito il provisioning.
Supporto del modello ottimizzato supervisionato
Per i modelli Google che supportano la messa a punto supervisionata, è supportato quanto segue:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate con supervisione di questi modelli di base.
Gli endpoint del modello ottimizzato in modo supervisionato e il numero di modelli di base corrispondenti vengono conteggiati ai fini della stessa quota di throughput riservato.
Ad esempio, il throughput di cui è stato eseguito il provisioning acquistato per
gemini-2.0-flash-lite-001
per un progetto specifico assegna la priorità alle richieste effettuate da versioni ottimizzate supervisionate digemini-2.0-flash-lite-001
create all'interno di quel progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.
Modelli di partner
La tabella seguente mostra la velocità effettiva, l'incremento di acquisto e i tassi di esaurimento per i modelli partner che supportano la velocità effettiva di cui è stato eseguito il provisioning. I modelli Claude vengono misurati in token al secondo, ovvero un totale di token di input e output in tutte le richieste al secondo.
Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di esaurimento |
---|---|---|---|---|
Claude Opus 4 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude Sonnet 4 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.7 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Sonnet v2 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache = 1,25 token 1 token di successo della cache = 0,1 token |
Per informazioni sulle località supportate, vedi Disponibilità delle regioni di Anthropic Claude. Per ordinare il throughput di cui è stato eseguito il provisioning per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.