Utilizzare la velocità effettiva di cui è stato eseguito il provisioning

Questa pagina spiega come funziona il throughput di cui è stato eseguito il provisioning, come controllare gli addebiti in eccesso o bypassare il throughput di cui è stato eseguito il provisioning e come monitorare l'utilizzo.

Come funziona la velocità effettiva di cui è stato eseguito il provisioning

Questa sezione spiega come funziona il throughput di cui è stato eseguito il provisioning utilizzando il controllo della quota durante il periodo di applicazione della quota.

Controllo della quota di throughput riservato

La quota massima di velocità effettiva di cui è stato eseguito il provisioning è un multiplo del numero di unità della scala di AI generativa (GSU) acquistate e della velocità effettiva per GSU. Viene controllato ogni volta che fai una richiesta entro il periodo di applicazione della quota, ovvero la frequenza con cui viene applicata la quota massima di throughput di provisioning.

Al momento della ricezione di una richiesta, la dimensione effettiva della risposta è sconosciuta. Poiché diamo la priorità alla velocità di risposta per le applicazioni in tempo reale, il throughput di cui è stato eseguito il provisioning stima le dimensioni dei token di output. Se la stima iniziale supera la quota massima di Provisioned Throughput disponibile, la richiesta viene elaborata come pagamento a consumo. In caso contrario, viene elaborata come Provisioned Throughput. Ciò avviene confrontando la stima iniziale con la quota massima di velocità effettiva di cui è stato eseguito il provisioning.

Quando la risposta viene generata e le dimensioni effettive del token di output sono note, l'utilizzo e la quota effettivi vengono riconciliati aggiungendo la differenza tra la stima e l'utilizzo effettivo all'importo della quota di velocità effettiva di cui è stato eseguito il provisioning disponibile.

Periodo di applicazione della quota di throughput riservato

Per i modelli gemini-2.0-flash-lite e gemini-2.0-flash, il periodo di applicazione della quota può richiedere fino a 30 secondi ed è soggetto a modifiche. Ciò significa che in alcuni casi potresti riscontrare temporaneamente un traffico prioritario che supera l'importo della quota al secondo, ma non dovresti superare la quota su base di 30 secondi. Questi periodi si basano sull'ora dell'orologio interno di Vertex AI e sono indipendenti dal momento in cui vengono effettuate le richieste.

Ad esempio, se acquisti un'unità GSU di gemini-2.0-flash-001, dovresti aspettarti 3360 token al secondo di velocità effettiva sempre attiva. In media, non puoi superare i 100.800 token su base di 30 secondi, che vengono calcolati utilizzando la seguente formula:

3,360 tokens per second * 30 seconds = 100,800 tokens

Se in un giorno hai inviato una sola richiesta che ha consumato 8000 token in un secondo, potrebbe comunque essere elaborata come richiesta di throughput di cui è stato eseguito il provisioning, anche se al momento della richiesta hai superato il limite di 3360 token al secondo. Questo perché la richiesta non ha superato la soglia di 100.800 token ogni 30 secondi.

Controllare gli addebiti per superamento o ignorare il throughput sottoposto a provisioning

Utilizza l'API per controllare le eccedenze quando superi la velocità effettiva acquistata o per bypassare la velocità effettiva di cui è stato eseguito il provisioning in base alla singola richiesta.

Leggi attentamente ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se superi la quantità di throughput acquistata, le eccedenze vengono trasferite alla modalità on demand e vengono fatturate in base alla tariffa pay-as-you-go. Una volta attivo l'ordine di throughput di cui è stato eseguito il provisioning, il comportamento predefinito viene applicato automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine.

Utilizza solo il throughput riservato

Se gestisci i costi evitando gli addebiti on demand, utilizza solo la velocità effettiva di provisioning. Le richieste che superano l'importo dell'ordine di throughput di cui è stato eseguito il provisioning restituiscono un errore 429.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su dedicated.

Utilizzare solo il pagamento a consumo

Questa operazione è detta anche utilizzo on demand. Le richieste ignorano l'ordine di throughput di cui è stato eseguito il provisioning e vengono inviate direttamente al pagamento a consumo. Questa opzione potrebbe essere utile per esperimenti o applicazioni in fase di sviluppo.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su shared.

Esempio

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorare il throughput riservato

Puoi monitorare autonomamente l'utilizzo del throughput di cui è stato eseguito il provisioning utilizzando un insieme di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel.

Il monitoraggio del traffico del throughput riservato è una funzionalità in anteprima pubblica.

Dimensioni

Puoi filtrare in base alle metriche utilizzando le seguenti dimensioni:

Dimensione Valori
type input
output
request_type

dedicated: il traffico viene elaborato utilizzando il throughput con provisioning.

spillover: il traffico viene elaborato come quota pay-as-you-go dopo aver superato la quota di throughput di cui è stato eseguito il provisioning.

shared: se il throughput di cui è stato eseguito il provisioning è attivo, il traffico viene elaborato come quota pay-as-you-go utilizzando l'intestazione HTTP condivisa. Se il throughput di cui è stato eseguito il provisioning non è attivo, il traffico viene elaborato in modalità pay-as-you-go per impostazione predefinita.

Prefisso percorso

Il prefisso percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving.

Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metriche

Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel per i modelli Gemini. Utilizza i tipi di richiesta dedicated per filtrare l'utilizzo del throughput di provisioning.

Metrica Nome visualizzato Descrizione
/dedicated_gsu_limit Limite (GSU) Limite dedicato nelle GSU. Utilizza questa metrica per comprendere la quota massima di velocità effettiva di cui è stato eseguito il provisioning in GSU.
/tokens Token Distribuzione del conteggio dei token di input e output.
/token_count Conteggio token Conteggio dei token di input e output accumulati.
/consumed_token_throughput Velocità effettiva dei token Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento dei token e incorpora la riconciliazione delle quote. Consulta Controllo della quota di velocità effettiva sottoposta a provisioning.

Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva sottoposta a provisioning.
/dedicated_token_limit Limite (token al secondo) Limite dedicato in token al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su token.
/characters Caratteri Distribuzione del conteggio dei caratteri di input e output.
/character_count Conteggio dei caratteri Conteggio dei caratteri di input e output accumulati.
/consumed_throughput Velocità effettiva dei caratteri Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento in caratteri e incorpora la riconciliazione delle quote Controllo delle quote di velocità effettiva di cui è stato eseguito il provisioning.

Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva di cui è stato eseguito il provisioning.

Per i modelli basati su token, questa metrica equivale al throughput consumato in token moltiplicato per 4.
/dedicated_character_limit Limite (caratteri al secondo) Limite dedicato in caratteri al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su caratteri.
/model_invocation_count Conteggio chiamate del modello Numero di chiamate del modello (richieste di previsione).
/model_invocation_latencies Latenze di chiamata del modello Latenze di chiamata del modello (latenze di previsione).
/first_token_latencies Latenze del primo token Durata dal momento della ricezione della richiesta al momento della restituzione del primo token.

I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens/token_count.

Dashboard

Le dashboard di monitoraggio predefinite per il throughput di cui è stato eseguito il provisioning forniscono metriche che ti consentono di comprendere meglio l'utilizzo e l'utilizzo del throughput di cui è stato eseguito il provisioning. Per accedere alle dashboard:

  1. Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.

    Vai a Provisioned Throughput

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.

    Nella tabella Utilizzo del throughput riservato per modello puoi visualizzare quanto segue per l'intervallo di tempo selezionato:

    • Numero totale di GSU che avevi.

    • Utilizzo della velocità effettiva massima in termini di GSU.

    • L'utilizzo medio di GSU.

    • Il numero di volte in cui hai raggiunto il limite di throughput di cui è stato eseguito il provisioning.

  3. Seleziona un modello dalla tabella Utilizzo della velocità effettiva di provisioning per modello per visualizzare altre metriche specifiche per il modello selezionato.

Limitazioni della dashboard

La dashboard potrebbe mostrare risultati imprevisti, soprattutto per il traffico fluttuante che è irregolare o infrequente (ad esempio, meno di una query al secondo). I seguenti motivi potrebbero contribuire a questi risultati:

  • Gli intervalli di tempo superiori a 12 ore possono portare a una rappresentazione meno accurata del periodo di applicazione della quota. Le metriche di throughput e i relativi derivati, come l'utilizzo, mostrano le medie nei periodi di allineamento in base all'intervallo di tempo selezionato. Quando l'intervallo di tempo si espande, si espande anche ogni periodo di allineamento. Il periodo di allineamento si estende al calcolo dell'utilizzo medio. Poiché l'applicazione della quota viene calcolata a livello di secondi, se imposti l'intervallo di tempo su un periodo di 12 ore o meno, ottieni dati a livello di minuti più comparabili al periodo di applicazione della quota effettivo. Per ulteriori informazioni sui periodi di allineamento, vedi Allineamento: regolarizzazione all'interno della serie. Per ulteriori informazioni sugli intervalli di tempo, vedi Regolarizzazione degli intervalli di tempo.
  • Se sono state inviate più richieste contemporaneamente, le aggregazioni di monitoraggio potrebbero influire sulla tua capacità di filtrare le richieste specifiche.
  • Il throughput di cui è stato eseguito il provisioning limita il traffico quando è stata effettuata una richiesta, ma riporta le metriche di utilizzo dopo la riconciliazione della quota.
  • I periodi di applicazione della quota di velocità effettiva di cui è stato eseguito il provisioning sono indipendenti e potrebbero non corrispondere ai periodi di aggregazione del monitoraggio o ai periodi di richiesta o risposta.
  • Se non si sono verificati errori, potresti visualizzare un messaggio di errore nel grafico del tasso di errore. Ad esempio, Si è verificato un errore durante la richiesta dei dati. Una o più risorse non sono state trovate.

Avvisi

Dopo aver attivato gli avvisi, imposta quelli predefiniti per gestire l'utilizzo del traffico.

Attiva avvisi

Per attivare gli avvisi nella dashboard:

  1. Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.

    Vai a Provisioned Throughput

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.

  3. Seleziona Avvisi consigliati e verranno visualizzati i seguenti avvisi:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Controlla gli avvisi che ti aiutano a gestire il traffico.

Visualizzare ulteriori dettagli dell'avviso

Per visualizzare ulteriori informazioni sugli avvisi:

  1. Vai alla pagina Integrazioni.

    Vai a Integrazioni

  2. Inserisci vertex nel campo Filtro e premi Invio. Viene visualizzato Google Vertex AI.

  3. Per visualizzare ulteriori informazioni, fai clic su Visualizza dettagli. Viene visualizzato il riquadro Google Vertex AI details.

  4. Seleziona la scheda Avvisi e scegli un modello di policy di avviso.

Passaggi successivi