Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan Throughput yang Disediakan

Halaman ini menjelaskan cara kerja Throughput yang Disediakan, cara mengontrol penggunaan berlebih atau melewati Throughput yang Disediakan, dan cara memantau penggunaan.

Cara kerja Throughput yang Disediakan

Bagian ini menjelaskan cara kerja Throughput yang Disediakan dengan menggunakan pemeriksaan kuota selama periode penerapan kuota.

Pemeriksaan kuota Throughput yang Disediakan

Kuota maksimum Throughput yang Disediakan adalah kelipatan dari jumlah unit penskalaan AI generatif (GSU) yang dibeli dan throughput per GSU. Hal ini diperiksa setiap kali Anda membuat permintaan dalam periode penerapan kuota, yang merupakan frekuensi penerapan kuota Throughput yang Disediakan maksimum.

Pada saat permintaan diterima, ukuran respons sebenarnya tidak diketahui. Karena kami memprioritaskan kecepatan respons untuk aplikasi real-time, Throughput yang Disediakan memperkirakan ukuran token output. Jika estimasi awal melebihi kuota maksimum Throughput yang Disediakan yang tersedia, permintaan akan diproses sebagai bayar sesuai penggunaan. Jika tidak, permintaan akan diproses sebagai Throughput yang Disediakan. Hal ini dilakukan dengan membandingkan estimasi awal dengan kuota maksimum Throughput yang Disediakan.

Saat respons dibuat dan ukuran token output sebenarnya diketahui, penggunaan dan kuota sebenarnya disesuaikan dengan menambahkan perbedaan antara perkiraan dan penggunaan sebenarnya ke jumlah kuota Throughput yang Disediakan yang tersedia.

Periode penegakan kuota Throughput yang Disediakan

Untuk model Gemini, periode penerapan kuota dapat berlangsung hingga 30 detik dan dapat berubah. Artinya, Anda mungkin mengalami traffic yang diprioritaskan untuk sementara yang melebihi jumlah kuota Anda per detik dalam beberapa kasus, tetapi Anda tidak boleh melebihi kuota Anda per 30 detik. Periode ini didasarkan pada waktu clock internal Vertex AI dan tidak bergantung pada waktu permintaan dibuat.

Misalnya, jika Anda membeli satu GSU gemini-2.0-flash-001, Anda dapat mengharapkan throughput selalu aktif sebesar 3.360 token per detik. Rata-rata, Anda tidak dapat melebihi 100.800 token dalam jangka waktu 30 detik, yang dihitung menggunakan formula berikut:

3,360 tokens per second * 30 seconds = 100,800 tokens

Jika dalam sehari Anda hanya mengirimkan satu permintaan yang menggunakan 8.000 token dalam satu detik, permintaan tersebut mungkin masih diproses sebagai permintaan Throughput yang Disediakan, meskipun Anda melampaui batas 3.360 token per detik pada saat permintaan tersebut. Hal ini karena permintaan tidak melebihi batas 100.800 token per 30 detik.

Mengontrol kelebihan penggunaan atau melewati Throughput yang Disediakan

Gunakan API untuk mengontrol kelebihan penggunaan saat Anda melampaui throughput yang dibeli atau untuk melewati Throughput yang Disediakan berdasarkan per permintaan.

Baca setiap opsi untuk menentukan apa yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihan penggunaan akan dialihkan ke on-demand dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan terjadi secara otomatis. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan selama Anda menggunakannya di wilayah yang disediakan.

Hanya menggunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, gunakan hanya Throughput yang Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.

Saat mengirim permintaan ke API, tetapkan header HTTP X-Vertex-AI-LLM-Request-Type ke dedicated.

Hanya menggunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai penggunaan sesuai permintaan. Permintaan melewati urutan Throughput yang Disediakan dan dikirim langsung ke bayar sesuai penggunaan. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Saat mengirim permintaan ke API, tetapkan header HTTP X-Vertex-AI-LLM-Request-Type ke shared.

Contoh

Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Pelajari cara menginstal atau mengupdate Go.

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau sendiri penggunaan Throughput yang Disediakan menggunakan serangkaian metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel.

Pemantauan traffic Throughput yang Disediakan adalah fitur Pratinjau publik.

Dimensi

Anda dapat memfilter metrik menggunakan dimensi berikut:

Dimensi Nilai

type input
output

Dimensi	Nilai
`type`	`input` `output`
`request_type`	`dedicated`: Traffic diproses menggunakan Throughput yang Disediakan. `spillover`: Traffic diproses sebagai kuota bayar sesuai penggunaan setelah Anda melebihi kuota Throughput yang Disediakan. `shared`: Jika Throughput yang Disediakan aktif, maka traffic diproses sebagai kuota bayar sesuai penggunaan menggunakan header HTTP bersama. Jika Throughput yang Disediakan tidak aktif, traffic akan diproses sebagai bayar sesuai penggunaan secara default.

request_type

dedicated: Traffic diproses menggunakan Throughput yang Disediakan.

spillover: Traffic diproses sebagai kuota bayar sesuai penggunaan setelah Anda melebihi kuota Throughput yang Disediakan.

shared: Jika Throughput yang Disediakan aktif, maka traffic diproses sebagai kuota bayar sesuai penggunaan menggunakan header HTTP bersama. Jika Throughput yang Disediakan tidak aktif, traffic akan diproses sebagai bayar sesuai penggunaan secara default.

Awalan jalur

Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving.

Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik

Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel untuk model Gemini. Gunakan jenis permintaan dedicated untuk memfilter penggunaan Throughput yang Disediakan.

Metrik	Nama tampilan	Deskripsi
`/dedicated_gsu_limit`	Batas (GSU)	Batas khusus di GSU. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan dalam GSU.
`/tokens`	Token	Distribusi jumlah token input dan output.
`/token_count`	Jumlah token	Jumlah token input dan output yang terakumulasi.
`/consumed_token_throughput`	Throughput token	Penggunaan throughput, yang memperhitungkan laju penyelesaian dalam token dan menggabungkan rekonsiliasi kuota. Lihat Pemeriksaan kuota Throughput yang Disediakan. Gunakan metrik ini untuk memahami cara penggunaan kuota Throughput yang Disediakan.
`/dedicated_token_limit`	Batas (token per detik)	Batas khusus dalam token per detik. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan untuk model berbasis token.
`/characters`	Karakter	Distribusi jumlah karakter input dan output.
`/character_count`	Jumlah karakter	Jumlah karakter input dan output yang terakumulasi.
`/consumed_throughput`	Throughput karakter	Penggunaan throughput, yang memperhitungkan laju penurunan dalam karakter dan menggabungkan rekonsiliasi kuota pemeriksaan kuota Throughput yang Disediakan. Gunakan metrik ini untuk memahami cara penggunaan kuota Throughput yang Disediakan. Untuk model berbasis token, metrik ini setara dengan throughput yang digunakan dalam token dikalikan 4.
`/dedicated_character_limit`	Batas (karakter per detik)	Batas khusus dalam karakter per detik. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan untuk model berbasis karakter.
`/model_invocation_count`	Jumlah pemanggilan model	Jumlah pemanggilan model (permintaan prediksi).
`/model_invocation_latencies`	Latensi pemanggilan model	Latensi pemanggilan model (latensi prediksi).
`/first_token_latencies`	Latensi token pertama	Durasi dari permintaan diterima hingga token pertama ditampilkan.

Model Anthropic juga memiliki filter untuk Throughput yang Disediakan, tetapi hanya untuk tokens dan token_count.

Dasbor

Dasbor pemantauan default untuk Throughput yang Disediakan menyediakan metrik yang memungkinkan Anda lebih memahami penggunaan dan pemanfaatan Throughput yang Disediakan. Untuk mengakses dasbor, lakukan hal berikut:

Di konsol Google Cloud , buka halaman Provisioned Throughput.
Buka Throughput yang Disediakan
Untuk melihat pemanfaatan Throughput yang Disediakan dari setiap model di seluruh pesanan Anda, pilih tab Ringkasan pemanfaatan.

Di tabel Penggunaan throughput yang disediakan menurut model, Anda dapat melihat hal berikut untuk rentang waktu yang dipilih:
- Jumlah total GSU yang Anda miliki.
- Penggunaan throughput puncak dalam hal GSU.
- Penggunaan GSU rata-rata.
- Jumlah berapa kali Anda mencapai batas Throughput yang Disediakan.
Pilih model dari tabel Penggunaan Throughput yang Disediakan menurut model untuk melihat metrik lainnya yang khusus untuk model yang dipilih.

Batasan dasbor

Dasbor mungkin menampilkan hasil yang tidak terduga, terutama untuk traffic yang berfluktuasi dan tidak teratur (misalnya, kurang dari 1 kueri per detik). Alasan berikut mungkin berkontribusi pada hasil tersebut:

Rentang waktu yang lebih besar dari 12 jam dapat menyebabkan representasi periode penegakan kuota yang kurang akurat. Metrik throughput dan turunannya, seperti pemanfaatan, menampilkan rata-rata di seluruh periode penyelarasan yang didasarkan pada rentang waktu yang dipilih. Saat rentang waktu diperluas, setiap periode penyelarasan juga diperluas. Periode penyelarasan diperluas di seluruh penghitungan penggunaan rata-rata. Karena penerapan kuota dihitung pada tingkat sub-menit, menetapkan rentang waktu ke periode 12 jam atau kurang akan menghasilkan data tingkat menit yang lebih sebanding dengan periode penerapan kuota sebenarnya. Untuk mengetahui informasi selengkapnya tentang periode perataan, lihat Perataan: regularisasi dalam deret. Untuk mengetahui informasi selengkapnya tentang rentang waktu, lihat Menyederhanakan interval waktu.
Jika beberapa permintaan dikirimkan secara bersamaan, pemantauan agregasi dapat memengaruhi kemampuan Anda untuk memfilter permintaan tertentu.
Throughput yang Disediakan membatasi traffic saat permintaan dibuat, tetapi melaporkan metrik penggunaan setelah kuota disesuaikan.
Periode penegakan kuota Throughput yang Disediakan tidak bergantung pada dan mungkin tidak selaras dengan periode agregasi pemantauan atau periode permintaan atau respons.
Jika tidak ada error yang terjadi, Anda mungkin melihat pesan error dalam diagram rasio error. Misalnya, Terjadi error saat meminta data. Satu atau beberapa resource tidak dapat ditemukan.

Memantau model Genmedia

Pemantauan Throughput yang Disediakan tidak tersedia di model Veo 3 dan Imagen.

Pemberitahuan

Setelah pemberitahuan diaktifkan, tetapkan pemberitahuan default untuk membantu Anda mengelola penggunaan traffic.

Aktifkan notifikasi

Untuk mengaktifkan pemberitahuan di dasbor, lakukan tindakan berikut:

Di konsol Google Cloud , buka halaman Provisioned Throughput.
Buka Throughput yang Disediakan
Untuk melihat pemanfaatan Throughput yang Disediakan dari setiap model di seluruh pesanan Anda, pilih tab Ringkasan pemanfaatan.
Pilih Notifikasi yang direkomendasikan, dan notifikasi berikut akan ditampilkan:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Periksa peringatan yang membantu Anda mengelola traffic.

Melihat detail notifikasi lainnya

Untuk melihat informasi selengkapnya tentang pemberitahuan, lakukan tindakan berikut:

Buka halaman Integrations.
Buka Integrasi
Masukkan vertex ke kolom Filter, lalu tekan Enter. Google Vertex AI akan muncul.
Untuk melihat informasi selengkapnya, klik Lihat detail. Panel Detail Google Vertex AI akan ditampilkan.
Pilih tab Alerts, lalu Anda dapat memilih template Alert Policy.

Langkah berikutnya

Memecahkan masalah Kode error 429.