Utilizzare la velocità effettiva di cui è stato eseguito il provisioning

Questa pagina spiega come funziona il throughput Provisioning, come controllare gli sforamenti o bypassare il throughput Provisioning e come monitorare l'utilizzo.

Come funziona la velocità effettiva di cui è stato eseguito il provisioning

Questa sezione spiega come funziona il throughput pianificato utilizzando il controllo delle quote durante il periodo di applicazione delle quote.

Verifica della quota del throughput riservato

La quota massima di throughput provisionato è un multiplo del numero di unità della scala di AI generativa (GSU) acquistate e della velocità effettiva per GSU. Viene controllato ogni volta che effettui una richiesta entro il periodo di applicazione della quota, ovvero la frequenza con cui viene applicata la quota massima di throughput pianificato.

Al momento della ricezione di una richiesta, le dimensioni effettive della risposta sono sconosciute. Poiché diamo la priorità alla velocità di risposta per le applicazioni in tempo reale, la funzionalità Throughput pianificato stima le dimensioni del token di output. Se la stima iniziale supera la quota massima di throughput Provisioning, la richiesta viene elaborata come pagamento a consumo. In caso contrario, viene elaborata come throughput Provisioning. Questo viene fatto confrontando la stima iniziale con la quota massima di throughput provisionato.

Quando la risposta viene generata e le dimensioni effettive del token di output sono note, l'utilizzo e la quota effettivi vengono riconciliati aggiungendo la differenza tra la stima e l'utilizzo effettivo all'importo della quota di velocità effettiva pianificata disponibile.

Periodo di applicazione della quota del throughput riservato

Per i modelli gemini-2.0-flash-lite e gemini-2.0-flash, il periodo di applicazione della quota può richiedere fino a 30 secondi ed è soggetto a modifiche. Ciò significa che in alcuni casi potresti riscontrare temporaneamente un traffico con priorità che supera l'importo della tua quota su base secondaria, ma non dovresti superare la quota su base di 30 secondi. Il periodo di applicazione della quota per altri modelli può richiedere fino a un minuto. Questi periodi si basano sull'ora del sistema interno di Vertex AI e sono indipendenti dal momento in cui vengono effettuate le richieste.

Ad esempio, se acquisti una GSU di gemini-2.0-flash-001, dovresti aspettarti un throughput sempre attivo di 800 caratteri al secondo. In media, non puoi superare i 24.000 caratteri ogni 30 secondi, valore calcolato utilizzando questa formula:

800 characters per second * 30 seconds = 24,000 characters

Se hai inviato una singola richiesta per tutto il giorno che ha consumato 1600 caratteri in un secondo, potrebbe comunque essere elaborata come richiesta di throughput pianificato perché è ancora al di sotto della soglia di 24.000 caratteri per 30 secondi anche se hai superato il limite di 800 caratteri al secondo al momento della richiesta.

Controllare gli sforamenti o bypassare il throughput riservato

Utilizza l'API per controllare le eccedenze quando superi la capacità acquistata o per bypassare la funzionalità Throughput pianificato su base per richiesta.

Leggi ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se superi la quantità di throughput acquistata, le eccedenze vengono addebitate in base al servizio on demand e vengono fatturate in base alla tariffa di pagamento a consumo. Una volta attivo l'ordine di throughput provisionato, il comportamento predefinito viene applicato automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine.

Utilizza solo la velocità effettiva di cui è stato eseguito il provisioning

Se gestisci i costi evitando gli addebiti on demand, utilizza solo la velocità effettiva pianificata. Le richieste che superano l'importo dell'ordine di throughput pianificato restituiscono un errore 429.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su dedicated.

Utilizza solo il pagamento a consumo

Questo approccio è detto anche on demand. Le richieste aggirano l'ordine di throughput provisionato e vengono inviate direttamente al pagamento a consumo. Questa opzione potrebbe essere utile per esperimenti o applicazioni in fase di sviluppo.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su shared.

Esempio

Gen AI SDK for Python

Installa

pip install --upgrade google-genai
Per scoprire di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorare il throughput riservato

Puoi monitorare autonomamente l'utilizzo del throughput pianificato utilizzando un insieme di metriche misurate in base al tipo di risorsa aiplatform.googleapis.com/PublisherModel.

Il monitoraggio del traffico con throughput pianificato è una funzionalità di Anteprima pubblica.

Dimensioni

Puoi filtrare in base alle metriche utilizzando le seguenti dimensioni:

Dimensione Valori
type input
output
request_type

dedicated: il traffico viene elaborato utilizzando il throughput riservato.

shared: se il throughput pianificato è attivo, il traffico viene elaborato utilizzando il pagamento a consumo per impostazione predefinita se superi la quota massima del throughput pianificato o se hai utilizzato l'intestazione HTTP shared.

Prefisso percorso

Il prefisso del percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving.

Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metriche

Le seguenti metriche di Cloud Monitoring sono disponibili nella risorsaaiplatform.googleapis.com/PublisherModel per i modelli Gemini. Utilizza i tipi di richiesta dedicated per filtrare in base all'utilizzo del throughput pianificato.

Metrica Nome visualizzato Descrizione
/dedicated_gsu_limit Limite (GSU) Limite dedicato nelle GSU. Utilizza questa metrica per conoscere la quota massima di throughput pianificato in GSU.
/tokens Token Distribuzione del conteggio dei token di input e di output.
/token_count Conteggio token Conteggio cumulativo dei token di input e di output.
/consumed_token_throughput Velocità effettiva dei token Utilizzo della velocità effettiva, che tiene conto del tasso di burndown in token e include la riconciliazione delle quote. Consulta Controllo della quota di velocità effettiva assegnata.

Utilizza questa metrica per capire in che modo è stata utilizzata la quota di velocità effettiva assegnata.
/dedicated_token_limit Limite (token al secondo) Limite dedicato in token al secondo. Utilizza questa metrica per conoscere la quota massima di throughput pianificato per i modelli basati su token.
/characters Caratteri Distribuzione del numero di caratteri di input e output.
/character_count Numero di caratteri Conteggio dei caratteri di input e output accumulati.
/consumed_throughput Velocità effettiva dei caratteri Utilizzo della velocità effettiva, che tiene conto del tasso di burndown in caratteri e include la riconciliazione delle quote Controllo della quota di velocità effettiva allocata.

Utilizza questa metrica per capire in che modo è stata utilizzata la quota di throughput pianificato.

Per i modelli basati su token, questa metrica è equivalente al throughput consumato in token moltiplicato per 4.
/dedicated_character_limit Limite (caratteri al secondo) Limite dedicato in caratteri al secondo. Utilizza questa metrica per conoscere la quota massima di throughput pianificato per i modelli basati su caratteri.
/model_invocation_count Conteggio chiamate del modello Numero di invocazioni del modello (richieste di previsione).
/model_invocation_latencies Latenze di chiamata del modello Latenze di chiamata del modello (latenze di previsione).
/first_token_latencies Latenze del primo token Durata dalla richiesta ricevuta al primo token restituito.

I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens/token_count.

Dashboard

Le dashboard di monitoraggio predefinite per il Throughput riservato forniscono metriche che ti consentono di comprendere meglio il tuo utilizzo e l'utilizzo del Throughput riservato. Per accedere alle dashboard:

  1. Nella console Google Cloud, vai alla pagina Throughput pianificato.

    Vai a Throughput riservato

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello tra gli ordini, seleziona la scheda Riepilogo utilizzo.

  3. Seleziona un modello dalla tabella Utilizzo della capacità pianificata per modello per visualizzare altre metriche specifiche per il modello selezionato.

Limiti della dashboard

La dashboard potrebbe mostrare risultati inaspettati, soprattutto se il traffico è discontinuo. I seguenti motivi potrebbero contribuire a questi risultati:

  • Intervalli di tempo superiori a 12 ore possono portare a una rappresentazione meno accurata del periodo di applicazione della quota. Le metriche relative al throughput e i relativi derivati, come l'utilizzo, mostrano le medie nei periodi di allineamento in base all'intervallo di tempo selezionato. Quando l'intervallo di tempo viene espanso, viene espanso anche ogni periodo di allineamento. Il periodo di allineamento si estende al calcolo dell'utilizzo medio. Poiché l'applicazione delle quote viene calcolata a livello di frazioni di minuto, l'impostazione dell'intervallo di tempo su un periodo di 12 ore o meno genera dati a livello di minuto più paragonabili al periodo di applicazione delle quote effettivo. Per ulteriori informazioni sui periodi di allineamento, consulta Allineamento: regolarizzazione all'interno della serie. Per ulteriori informazioni sugli intervalli di tempo, vedi Regolare gli intervalli di tempo.
  • Se sono state inviate più richieste contemporaneamente, il monitoraggio delle aggregazioni potrebbe influire sulla tua capacità di filtrare le richieste specifiche.
  • La funzionalità Throughput pianificato riduce la velocità in caso di richiesta, ma registra le metriche di utilizzo dopo la riconciliazione della quota.
  • I periodi di applicazione della quota di throughput provisionata sono indipendenti e potrebbero non essere in linea con i periodi di aggregazione del monitoraggio o con i periodi di richiesta o risposta.
  • Se non si sono verificati errori, potresti visualizzare un messaggio di errore nel grafico del tasso di errore. Ad esempio, Si è verificato un errore durante la richiesta dei dati. Non è stato possibile trovare una o più risorse.

Avvisi

Dopo aver attivato gli avvisi, imposta gli avvisi predefiniti per aiutarti a gestire l'utilizzo del traffico.

Attiva avvisi

Per attivare gli avvisi nella dashboard:

  1. Nella console Google Cloud, vai alla pagina Throughput pianificato.

    Vai a Throughput riservato

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello tra gli ordini, seleziona la scheda Riepilogo utilizzo.

  3. Seleziona Avvisi consigliati per visualizzare i seguenti avvisi:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Controlla gli avvisi che ti aiutano a gestire il traffico.

Visualizzare altri dettagli sugli avvisi

Per visualizzare ulteriori informazioni sugli avvisi:

  1. Vai alla pagina Integrazioni.

    Vai a Integrazioni

  2. Inserisci vertex nel campo Filtro e premi Invio. Viene visualizzato Google Vertex AI.

  3. Per visualizzare ulteriori informazioni, fai clic su Visualizza dettagli. Viene visualizzato il riquadro Dettagli Vertex AI di Google.

  4. Seleziona la scheda Avvisi e puoi selezionare un modello Criterio di avviso.

Passaggi successivi