Questa pagina è stata tradotta dall'API Cloud Translation.

Calcolare i requisiti del throughput riservato

Questa sezione spiega i concetti di unità della scala di AI generativa (GSU) e tassi di esaurimento. Il throughput sottoposto a provisioning viene calcolato e il prezzo viene determinato utilizzando le unità della scala di AI generativa (GSU) e i tassi di esaurimento.

GSU e tasso di esaurimento

Un'unità della scala di AI generativa (GSU) è una misura della velocità effettiva dei prompt e delle risposte. Questo importo specifica la quantità di throughput con cui eseguire il provisioning di un modello.

Un tasso di consumo è un rapporto che converte le unità di input e output (ad esempio token, caratteri o immagini) in token di input al secondo, caratteri di input al secondo o immagini di input al secondo, rispettivamente. Questo rapporto rappresenta il throughput e viene utilizzato per produrre un'unità standard tra i modelli.

Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'importo minimo di acquisto di GSU e sugli incrementi per ciascun modello, consulta la sezione Modelli supportati e tassi di esaurimento in questo documento.

Questa equazione mostra come viene calcolato il throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità effettiva calcolata al secondo determina il numero di GSU necessarie per il tuo caso d'uso.

Considerazioni importanti

Per pianificare le tue esigenze di throughput di cui è stato eseguito il provisioning, esamina le seguenti considerazioni importanti:

Le richieste vengono classificate in ordine di priorità.

I clienti con Provisioned Throughput vengono gestiti e serviti per primi rispetto alle richieste on demand.
Il throughput non si accumula.

Il throughput inutilizzato non si accumula né viene trasferito al mese successivo.
Il throughput di cui è stato eseguito il provisioning viene misurato in token al secondo, caratteri al secondo o immagini al secondo.

La velocità effettiva sottoposta a provisioning non viene misurata solo in base alle query al minuto (QPM). Viene misurato in base alle dimensioni della query per il tuo caso d'uso, alle dimensioni della risposta e al valore di QPM.
Il throughput di cui è stato eseguito il provisioning è specifico per un progetto, una regione, un modello e una versione.

Il throughput riservato viene assegnato a una specifica combinazione di progetto, regione, modello e versione. Lo stesso modello chiamato da una regione diversa non verrà conteggiato ai fini della quota di throughput con provisioning e non avrà la priorità rispetto alle richieste on demand.

Memorizzazione nella cache del contesto

Il throughput riservato supporta la memorizzazione nella cache del contesto implicita. Non supporta la memorizzazione nella cache del contesto esplicito. Il traffico di memorizzazione nella cache del contesto esplicito viene spostato dal throughput riservato al pagamento a consumo. Per informazioni sui modelli e sui limiti supportati, consulta Memorizzazione nella cache del contesto.

La memorizzazione nella cache implicita è abilitata in tutti i progetti Google Cloud per impostazione predefinita. La memorizzazione nella cache implicita riduce i costi e la latenza durante gli hit della cache. I token memorizzati nella cache vengono addebitati a un prezzo scontato rispetto ai token di input standard quando si verifica un successo della cache. Per visualizzare gli sconti specifici per modello, consulta la panoramica della memorizzazione nella cache del contesto. Per il throughput riservato, lo sconto viene applicato tramite un tasso di esaurimento ridotto.

Ad esempio, Gemini 2.5 Pro ha i seguenti tassi di consumo per i token di testo di input e i token memorizzati nella cache:

1 token di testo di input = 1 token
1 token di testo memorizzato nella cache di input = 0,1 token

L'invio di 1000 token di input a questo modello comporta una riduzione del throughput di cui è stato eseguito il provisioning di 1000 token di input al secondo. Tuttavia, se invii 1000 token memorizzati nella cache a Gemini 2.5 Pro, ciò comporta una riduzione del throughput di cui è stato eseguito il provisioning di 100 token al secondo.

Tieni presente che ciò può comportare una velocità effettiva maggiore per query simili in cui i token non vengono memorizzati nella cache e lo sconto per la cache non viene applicato.

Per visualizzare i tassi di esaurimento per i modelli supportati nel throughput riservato, vedi Modelli supportati e tassi di esaurimento.

Informazioni sul burndown per l'API Live

Provisioned Throughput supporta Gemini 2.5 Flash con l'API Live. Per capire come calcolare il burndown durante l'utilizzo dell'API Live, consulta Calcolare il throughput per l'API Live.

Per saperne di più sull'utilizzo del throughput di cui è stato eseguito il provisioning per Gemini 2.5 Flash con l'API Live, consulta Throughput di cui è stato eseguito il provisioning per l'API Live.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le tue esigenze di throughput con provisioning, utilizza lo strumento di stima nella console Google Cloud . L'esempio seguente illustra il processo di stima della quantità di throughput di cui è stato eseguito il provisioning per il tuo modello. La regione non viene presa in considerazione nei calcoli della stima.

Questa tabella fornisce i tassi di consumo per gemini-2.0-flash che puoi utilizzare per seguire l'esempio.

Modello	Throughput per GSU	Unità	Incremento minimo di acquisto di GSU	Tassi di esaurimento
Gemini 2.0 Flash	3360	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 7 token 1 token di testo di output = 4 token

Raccogli i requisiti.
1. In questo esempio, il tuo requisito è verificare di poter supportare 10 query al secondo (QPS) di una query con un input di 1000 token di testo e 500 token audio, per ricevere un output di 300 token di testo utilizzando gemini-2.0-flash.
  
  Questo passaggio significa che comprendi il tuo caso d'uso, perché hai identificato il modello, le QPS e le dimensioni degli input e degli output.
2. Per calcolare la velocità effettiva, consulta i tassi di consumo per il modello selezionato.
Calcola il throughput.
1. Moltiplica gli input per i tassi di consumo per ottenere i token di input totali:
  
  1000&ast;(1 token per token di testo di input) + 500&ast;(7 token per token audio di input) = 4500 token di input con riduzione per query.
2. Moltiplica gli output per i tassi di esaurimento per ottenere i token di output totali:
  
  300&ast;(4 token per token di testo di output) = 1200 token di output aggiustati per query
3. Somma i totali:
  
  4500 token di input aggiustati per il burndown + 1200 token di output aggiustati per il burndown = 5700 token totali per query
4. Moltiplica il numero totale di token per le QPS per ottenere il throughput totale al secondo:
  
  5700 token totali per query * 10 QPS = 57.000 token totali al secondo
Calcola le tue GSU.
1. Le GSU sono il numero totale di token al secondo diviso per il throughput al secondo per GSU della tabella di esaurimento.
  
  57.000 token totali al secondo ÷ 3360 token al secondo per GSU = 16,96 GSU
2. L'incremento minimo di acquisto di GSU per gemini-2.0-flash è 1, quindi avrai bisogno di 17 GSU per assicurare il tuo workload.

Passaggi successivi

Acquista throughput riservato.