Modelli Google
La tabella seguente mostra la velocità effettiva, l'incremento degli acquisti e le percentuali di burndown per i modelli Google che supportano la velocità effettiva pianificata. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato per tutte le richieste al secondo.
Il throughput pianificato supporta solo i modelli chiamati direttamente dal tuo progetto utilizzando l'API del modello e non supporta i modelli chiamati da altri prodotti Vertex AI, tra cui Vertex AI Agents e Vertex AI Search.
Per scoprire quanti token sono richiesti dal tuo workload, fai riferimento al tokenizzatore SDK o all'API countTokens.
Modello | Portata al secondo per GSU | Unità | Incremento minimo di acquisto di GSU | Tassi di burndown |
---|---|---|---|---|
Gemini 2.0 Flash-Lite | 6720 | Token | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token |
Gemini 2.0 Flash | 3360 | Token | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 7 token 1 token di testo di output = 4 token |
Imagen 3 | 0,025 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Imagen 3 Fast | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Imagen 2 | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Imagen 2 Modifica | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
MedLM medium | 2000 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 2 caratteri |
MedLM grande | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
MedLM large 1.5 | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
Per ulteriori informazioni sulle località supportate, consulta Località disponibili.
Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni sulla disponibilità e sulle date di ritiro dei modelli, vedi Modelli Google.
Supporto dei modelli ottimizzati supervisionati
Per i modelli Google che supportano la ottimizzazione fine supervisionata, è supportato quanto segue:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate supervisionate di questi modelli di base.
Gli endpoint dei modelli perfezionati supervisionati e i relativi modelli di base corrispondenti vengono conteggiati per la stessa quota di throughput pianificato.
Ad esempio, il throughput pianificato acquistato per
gemini-2.0-flash-lite-001
per un progetto specifico dà la priorità alle richieste effettuate da versioni perfezionate supervisionate digemini-2.0-flash-lite-001
create all'interno del progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.
Modelli legacy di Google
Consulta Modelli precedenti che supportano il throughput pianificato.
Modelli di partner
La tabella seguente mostra la velocità effettiva, l'incremento di acquisto e le percentuali di burndown per i modelli partner che supportano la velocità effettiva pianificata. I modelli Claude vengono misurati in token al secondo, che è definito come il totale dei token di input e di output per tutte le richieste al secondo.
Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di burndown |
---|---|---|---|---|
Claude 3.7 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3.5 Sonnet v2 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Claude 3.5 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token |
Per informazioni sulle località supportate, consulta la pagina Disponibilità delle regioni di Anthropic Claude. Per ordinare il throughput pianificato per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.