Calcolare i requisiti del throughput riservato

Questa sezione spiega i concetti di unità della scala di AI generativa (GSU) e tassi di esaurimento. Il throughput sottoposto a provisioning viene calcolato e il prezzo viene determinato utilizzando le unità della scala di AI generativa (GSU) e i tassi di esaurimento.

GSU e tasso di esaurimento

Un'unità della scala di AI generativa (GSU) è una misura della velocità effettiva dei prompt e delle risposte. Questo importo specifica la quantità di throughput con cui eseguire il provisioning di un modello.

Un tasso di consumo è un rapporto che converte le unità di input e output (ad esempio token, caratteri o immagini) in token di input al secondo, caratteri di input al secondo o immagini di input al secondo, rispettivamente. Questo rapporto rappresenta il throughput e viene utilizzato per produrre un'unità standard tra i modelli.

Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'importo minimo di acquisto di GSU e sugli incrementi per ogni modello, consulta la sezione Modelli supportati e tassi di esaurimento in questo documento.

Questa equazione mostra come viene calcolato il throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità effettiva calcolata al secondo determina il numero di GSU necessarie per il tuo caso d'uso.

Considerazioni importanti

Per aiutarti a pianificare le tue esigenze di throughput di cui è stato eseguito il provisioning, esamina le seguenti considerazioni importanti:

  • Le richieste vengono classificate in base alla priorità.

    I clienti con Provisioned Throughput vengono gestiti e serviti per primi rispetto alle richieste on demand.

  • Il throughput non si accumula.

    Il throughput inutilizzato non si accumula né viene trasferito al mese successivo.

  • Il throughput di provisioning viene misurato in token al secondo, caratteri al secondo o immagini al secondo.

    La velocità effettiva sottoposta a provisioning non viene misurata solo in base alle query al minuto (QPM). Viene misurato in base alle dimensioni della query per il tuo caso d'uso, alle dimensioni della risposta e al valore di QPM.

  • Il throughput riservato è specifico per un progetto, una regione, un modello e una versione.

    Il throughput riservato viene assegnato a una specifica combinazione di progetto, regione, modello e versione. Lo stesso modello chiamato da una regione diversa non verrà conteggiato ai fini della quota di throughput con provisioning e non avrà la priorità rispetto alle richieste on demand.

Memorizzazione nella cache del contesto

Il throughput riservato supporta la memorizzazione nella cache del contesto predefinita. Tuttavia, il throughput di cui è stato eseguito il provisioning non supporta le richieste di memorizzazione nella cache utilizzando l'API Vertex AI che include il recupero di informazioni su una cache di contesto.

Per impostazione predefinita, Google memorizza automaticamente nella cache gli input per ridurre costi e latenza. Per i modelli Gemini 2.5 Flash e Gemini 2.5 Pro, i token memorizzati nella cache vengono addebitati con uno sconto del 75% rispetto ai token di input standard quando si verifica usuccesso della cachehe. Per Provisioned Throughput, lo sconto viene applicato tramite un tasso di esaurimento ridotto.

Ad esempio, Gemini 2.5 Pro ha i seguenti tassi di consumo per i token di testo di input e i token memorizzati nella cache:

  • 1 token di testo di input = 1 token

  • 1 token di testo memorizzato nella cache di input = 0,25 token

L'invio di 1000 token di input a questo modello comporta una riduzione del throughput di cui è stato eseguito il provisioning di 1000 token di input al secondo. Tuttavia, se invii 1000 token memorizzati nella cache a Gemini 2.5 Pro, il throughput di cui è stato eseguito il provisioning si riduce di 250 token al secondo.

Tieni presente che ciò può comportare una velocità effettiva maggiore per query simili in cui i token non vengono memorizzati nella cache e lo sconto per la cache non viene applicato.

Per visualizzare i tassi di esaurimento per i modelli supportati nel throughput riservato, vedi Modelli supportati e tassi di esaurimento.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le tue esigenze di throughput con provisioning, utilizza lo strumento di stima nella console Google Cloud . L'esempio seguente illustra il processo di stima della quantità di throughput di cui è stato eseguito il provisioning per il modello. La regione non viene presa in considerazione nei calcoli della stima.

Questa tabella fornisce i tassi di consumo per gemini-2.0-flash che puoi utilizzare per seguire l'esempio.

Modello Throughput per GSU Unità Incremento minimo di acquisto di GSU Tassi di esaurimento
Gemini 2.0 Flash 3360 Token 1 1 token di testo di input = 1 token
1 token di immagine di input = 1 token
1 token di video di input = 1 token
1 token di audio di input = 7 token
1 token di testo di output = 4 token
  1. Raccogli i requisiti.

    1. In questo esempio, il tuo requisito è verificare di poter supportare 10 query al secondo (QPS) di una query con un input di 1000 token di testo e 500 token audio, per ricevere un output di 300 token di testo utilizzando gemini-2.0-flash.

      Questo passaggio significa che comprendi il tuo caso d'uso, perché hai identificato il modello, le QPS e le dimensioni degli input e degli output.

    2. Per calcolare la velocità effettiva, consulta i tassi di consumo per il modello selezionato.

  2. Calcola la velocità effettiva.

    1. Moltiplica gli input per i tassi di consumo per ottenere i token di input totali:

      1000*(1 token per token di testo di input) + 500*(7 token per token audio di input) = 4500 token di input con riduzione per query.

    2. Moltiplica gli output per i tassi di esaurimento per ottenere i token di output totali:

      300*(4 token per token di testo di output) = 1200 token di output aggiustati per query

    3. Somma i totali:

      4500 token di input aggiustati per il burndown + 1200 token di output aggiustati per il burndown = 5700 token totali per query

    4. Moltiplica il numero totale di token per le QPS per ottenere il throughput totale al secondo:

      5700 token totali per query * 10 QPS = 57.000 token totali al secondo

  3. Calcola le tue GSU.

    1. Le GSU sono il numero totale di token al secondo diviso per il throughput al secondo per GSU della tabella di esaurimento.

      57.000 token totali al secondo ÷ 3360 token al secondo per GSU = 16,96 GSU

    2. L'incremento minimo di acquisto di GSU per gemini-2.0-flash è 1, quindi avrai bisogno di 17 GSU per assicurare il tuo workload.

Passaggi successivi