Calcolare i requisiti del throughput riservato

Questa sezione illustra i concetti di unità della scala di AI generativa (GSU) e di tassi di burndown. Il Throughput riservato viene calcolato e valutato utilizzando le unità della scala di AI generativa (GSU) e le percentuali di burndown.

GSU e tasso di burndown

Un'unità della scala di AI generativa (GSU) è una misura della produttività per i prompt e le risposte. Questo valore specifica la quantità di throughput con cui eseguire il provisioning di un modello.

Un tasso di burndown è un rapporto che converte i caratteri di input e output in caratteri di input al secondo (throughput). Questo rapporto viene utilizzato per produrre un'unità standard per tutti i modelli.

Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'ammontare minimo dell'acquisto di GSU e sugli incrementi per ciascun modello, consulta la sezione Modelli supportati e tassi di burndown in questo documento.

Questa equazione mostra come viene calcolato il throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La velocità in MB/s calcolata determina il numero di GSU necessarie per il tuo caso d'uso.

Considerazioni importanti

Per aiutarti a pianificare le tue esigenze di throughput pianificato, esamina le seguenti considerazioni importanti:

  • Le richieste vengono assegnate una priorità.

    I clienti con volume di produzione provisionato hanno la priorità e vengono serviti prima delle richieste on demand.

  • La larghezza di banda non si accumula.

    La larghezza di banda inutilizzata non si accumula né viene trasferita al mese successivo.

  • Il throughput riservato viene misurato in caratteri o token al secondo.

    Il throughput pianificato viene misurato in caratteri o token al secondo, non in query al minuto (QPM). Di conseguenza, la misurazione della velocità effettiva pianificata dipende dalle dimensioni delle query, dalle dimensioni delle risposte e dal QPM del caso d'uso.

  • Il throughput riservato è specifico per un progetto, una regione, un modello e una versione.

    Il throughput riservato viene assegnato a una combinazione specifica di progetto, regione, modello e versione. Lo stesso modello chiamato da una regione diversa non verrà conteggiato ai fini della quota di throughput provisionato e non avrà la priorità sulle richieste on demand.

Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning

Per stimare le tue esigenze di throughput provisionato, utilizza lo strumento di stima nella console Google Cloud. L'esempio seguente illustra la procedura per stimare la quantità di throughput Provisioning per il modello. La regione non viene considerata nei calcoli della stima.

Questa tabella fornisce le percentuali di burndown per gemini-2.0-flash che puoi utilizzare per seguire l'esempio.

Modello Throughput per GSU (caratteri/sec) Incremento minimo di acquisto di GSU Tassi di burndown
Gemini 2.0 Flash Finestra contestuale inferiore o uguale a 128.000 token:
54.000

Finestra contestuale superiore a 128.000 token:
27.000
1 Finestra contestuale di meno o uguale a 128.000 token:
1 carattere di input = 1 carattere
1 carattere di output = 4 caratteri
1 immagine = 1067 caratteri
1 video al secondo = 1067 caratteri
1 audio al secondo = 107 caratteri

Finestra contestuale di più di 128.000 token:
1 carattere di input = 2 caratteri
1 carattere di output = 8 caratteri
1 immagine = 2134 caratteri
1 video al secondo = 2134 caratteri
1 audio al secondo = 214 caratteri
  1. Raccogliere i requisiti.

    1. In questo esempio, il tuo requisito è assicurarti di poter inviare 2000 caratteri con 2 immagini e ricevere 300 caratteri di output per 10 query al secondo utilizzando gemini-2.0-flash.

      Questo passaggio significa che hai compreso il tuo caso d'uso, perché hai identificato le dimensioni degli input e degli output, il numero di query al secondo (QPS) e il tuo modello.

    2. Per stimare la produttività, specifica il modello. In questo esempio, il modello è gemini-2.0-flash.

    3. Specifica il tipo di input e identifica il tasso di burndown. Utilizza il tasso di burndown per identificare il tasso di burndown in base al tipo di input.

      Il tasso di burndown di un'immagine per il modello gemini-2.0-flash è di 1.067 caratteri.

  2. Calcola il throughput.

    1. Moltiplica il numero di immagini per il tasso di burndown per il tipo di input per il tuo modello specifico.

      2 immagini * 1067 caratteri di input per immagine = 2134 caratteri di input

    2. Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di riduzione e individua il tasso di riduzione per i caratteri di output (quattro caratteri per carattere di output) per il tuo modello specifico (gemini-2.0-flash).

      300 caratteri di output * 4 caratteri per carattere di output = 1200 caratteri di input convertiti

    3. Somma i totali.

      2000 caratteri di input + 2134 caratteri di input convertiti per le immagini + 1200 caratteri di input convertiti per l'output = 5334 caratteri di input convertiti per query

    4. Moltiplica i caratteri per query per il numero di query al secondo previste per ottenere il throughput totale al secondo.

      5334 caratteri di input convertiti per query * 10 QPS = 53340 caratteri di input convertiti totali al secondo

  3. Calcola le unità di servizio Google.

    1. Le GSU sono il throughput totale al secondo diviso per il throughput per GSU della tabella di burndown.

      53.340 caratteri di input convertiti totali al secondo ÷ 54.000 throughput per GSU = 0,988 GSU

    2. L'incremento minimo di acquisto GSU per gemini-2.0-flash è 1, che soddisfa il tuo requisito.

Passaggi successivi