GSU e tasso di burndown
Un'unità della scala di AI generativa (GSU) è una misura della produttività per i prompt e le risposte. Questo valore specifica la quantità di throughput con cui eseguire il provisioning di un modello.
Un tasso di burndown è un rapporto che converte i caratteri di input e output in caratteri di input al secondo (throughput). Questo rapporto viene utilizzato per produrre un'unità standard per tutti i modelli.
Modelli diversi utilizzano quantità diverse di throughput. Per informazioni sull'ammontare minimo dell'acquisto di GSU e sugli incrementi per ciascun modello, consulta la sezione Modelli supportati e tassi di burndown in questo documento.
Questa equazione mostra come viene calcolato il throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
La velocità in MB/s calcolata determina il numero di GSU necessarie per il tuo caso d'uso.
Considerazioni importanti
Per aiutarti a pianificare le tue esigenze di throughput pianificato, esamina le seguenti considerazioni importanti:
Le richieste vengono assegnate una priorità.
I clienti con volume di produzione provisionato hanno la priorità e vengono serviti prima delle richieste on demand.
La larghezza di banda non si accumula.
La larghezza di banda inutilizzata non si accumula né viene trasferita al mese successivo.
Il throughput riservato viene misurato in caratteri o token al secondo.
Il throughput pianificato viene misurato in caratteri o token al secondo, non in query al minuto (QPM). Di conseguenza, la misurazione della velocità effettiva pianificata dipende dalle dimensioni delle query, dalle dimensioni delle risposte e dal QPM del caso d'uso.
Il throughput riservato è specifico per un progetto, una regione, un modello e una versione.
Il throughput riservato viene assegnato a una combinazione specifica di progetto, regione, modello e versione. Lo stesso modello chiamato da una regione diversa non verrà conteggiato ai fini della quota di throughput provisionato e non avrà la priorità sulle richieste on demand.
Esempio di stima delle esigenze di velocità effettiva sottoposta a provisioning
Per stimare le tue esigenze di throughput provisionato, utilizza lo strumento di stima nella console Google Cloud. L'esempio seguente illustra la procedura per stimare la quantità di throughput Provisioning per il modello. La regione non viene considerata nei calcoli della stima.
Questa tabella fornisce le percentuali di burndown per gemini-2.0-flash
che puoi utilizzare per seguire l'esempio.
Modello | Throughput per GSU (caratteri/sec) | Incremento minimo di acquisto di GSU | Tassi di burndown |
---|---|---|---|
Gemini 2.0 Flash | Finestra contestuale inferiore o uguale a 128.000 token: 54.000 Finestra contestuale superiore a 128.000 token: 27.000 |
1 | Finestra contestuale di meno o uguale a 128.000 token: 1 carattere di input = 1 carattere 1 carattere di output = 4 caratteri 1 immagine = 1067 caratteri 1 video al secondo = 1067 caratteri 1 audio al secondo = 107 caratteri Finestra contestuale di più di 128.000 token: 1 carattere di input = 2 caratteri 1 carattere di output = 8 caratteri 1 immagine = 2134 caratteri 1 video al secondo = 2134 caratteri 1 audio al secondo = 214 caratteri |
Raccogliere i requisiti.
In questo esempio, il tuo requisito è assicurarti di poter inviare 2000 caratteri con 2 immagini e ricevere 300 caratteri di output per 10 query al secondo utilizzando
gemini-2.0-flash
.Questo passaggio significa che hai compreso il tuo caso d'uso, perché hai identificato le dimensioni degli input e degli output, il numero di query al secondo (QPS) e il tuo modello.
Per stimare la produttività, specifica il modello. In questo esempio, il modello è
gemini-2.0-flash
.Specifica il tipo di input e identifica il tasso di burndown. Utilizza il tasso di burndown per identificare il tasso di burndown in base al tipo di input.
Il tasso di burndown di un'immagine per il modello
gemini-2.0-flash
è di 1.067 caratteri.
Calcola il throughput.
Moltiplica il numero di immagini per il tasso di burndown per il tipo di input per il tuo modello specifico.
2 immagini * 1067 caratteri di input per immagine = 2134 caratteri di input
Il numero totale di caratteri di output è 300. Torna alla tabella dei tassi di riduzione e individua il tasso di riduzione per i caratteri di output (quattro caratteri per carattere di output) per il tuo modello specifico (
gemini-2.0-flash
).300 caratteri di output * 4 caratteri per carattere di output = 1200 caratteri di input convertiti
Somma i totali.
2000 caratteri di input + 2134 caratteri di input convertiti per le immagini + 1200 caratteri di input convertiti per l'output = 5334 caratteri di input convertiti per query
Moltiplica i caratteri per query per il numero di query al secondo previste per ottenere il throughput totale al secondo.
5334 caratteri di input convertiti per query * 10 QPS = 53340 caratteri di input convertiti totali al secondo
Calcola le unità di servizio Google.
Le GSU sono il throughput totale al secondo diviso per il throughput per GSU della tabella di burndown.
53.340 caratteri di input convertiti totali al secondo ÷ 54.000 throughput per GSU = 0,988 GSU
L'incremento minimo di acquisto GSU per
gemini-2.0-flash
è 1, che soddisfa il tuo requisito.