Menggunakan Throughput yang Disediakan

Halaman ini menjelaskan cara kerja Provisioned Throughput, cara mengontrol kelebihan kuota atau mengabaikan Provisioned Throughput, dan cara memantau penggunaan.

Cara kerja Throughput yang Disediakan

Bagian ini menjelaskan cara kerja Provisioned Throughput menggunakan pemeriksaan kuota selama periode penerapan kuota.

Pemeriksaan kuota Throughput yang Disediakan

Kuota maksimum Throughput yang Disediakan adalah kelipatan dari jumlah unit skala AI generatif (GSU) yang dibeli dan throughput per GSU. Kuota ini diperiksa setiap kali Anda membuat permintaan dalam periode penerapan kuota, yaitu frekuensi penerapan kuota Throughput yang Disediakan maksimum.

Pada saat permintaan diterima, ukuran respons yang sebenarnya tidak diketahui. Karena kami memprioritaskan kecepatan respons untuk aplikasi real-time, Throughput yang Disediakan memperkirakan ukuran token output. Jika estimasi awal melebihi kuota maksimum Provisioned Throughput yang tersedia, permintaan akan diproses sebagai bayar sesuai penggunaan. Jika tidak, permintaan akan diproses sebagai Provisioned Throughput. Hal ini dilakukan dengan membandingkan estimasi awal dengan kuota maksimum Throughput yang Disediakan.

Saat respons dibuat dan ukuran token output sebenarnya diketahui, kuota dan penggunaan aktual akan direkonsiliasi dengan menambahkan perbedaan antara estimasi dan penggunaan aktual ke jumlah kuota Throughput yang disediakan yang tersedia.

Periode penegakan kuota Throughput yang Disediakan

Untuk model gemini-2.0-flash-lite dan gemini-2.0-flash, periode penerapan kuota dapat memerlukan waktu hingga 30 detik dan dapat berubah sewaktu-waktu. Artinya, Anda mungkin mengalami traffic prioritas yang melebihi jumlah kuota per detik untuk sementara dalam beberapa kasus, tetapi Anda tidak boleh melebihi kuota per 30 detik. Periode penerapan kuota untuk model lain dapat memerlukan waktu hingga satu menit. Periode ini didasarkan pada waktu jam internal Vertex AI dan tidak bergantung pada waktu permintaan dibuat.

Misalnya, jika Anda membeli satu GSU gemini-2.0-flash-001, Anda akan mendapatkan throughput selalu aktif sebesar 800 karakter per detik. Rata-rata, Anda tidak boleh melebihi 24.000 karakter dalam durasi 30 detik, yang dihitung menggunakan formula ini:

800 characters per second * 30 seconds = 24,000 characters

Jika Anda mengirimkan satu permintaan sepanjang hari yang menggunakan 1.600 karakter dalam satu detik, permintaan tersebut mungkin masih diproses sebagai permintaan Throughput yang Disediakan karena masih di bawah batas 24.000 karakter per 30 detik meskipun Anda melebihi batas 800 karakter per detik pada saat permintaan.

Mengontrol kelebihan atau mengabaikan Throughput yang Disediakan

Gunakan API untuk mengontrol kelebihan jika Anda melebihi throughput yang dibeli atau untuk mengabaikan Throughput yang Disediakan per permintaan.

Baca setiap opsi untuk menentukan hal yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihannya akan masuk ke sesuai permintaan dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan otomatis terjadi. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan.

Hanya menggunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, hanya gunakan Throughput yang Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.

Saat mengirim permintaan ke API, tetapkan header HTTP X-Vertex-AI-LLM-Request-Type ke dedicated.

Hanya menggunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai penggunaan on-demand. Permintaan mengabaikan pesanan Provisioned Throughput dan dikirim langsung ke pay-as-you-go. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Saat mengirim permintaan ke API, tetapkan header HTTP X-Vertex-AI-LLM-Request-Type ke shared.

Contoh

Gen AI SDK for Python

Instal

pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau sendiri penggunaan Provisioned Throughput menggunakan kumpulan metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel.

Pemantauan traffic Throughput yang Disediakan adalah fitur Pratinjau publik.

Dimensi

Anda dapat memfilter metrik menggunakan dimensi berikut:

Dimensi Nilai
type input
output
request_type

dedicated: Traffic diproses menggunakan Throughput yang Disediakan.

shared: Jika Provisioned Throughput aktif, traffic akan diproses menggunakan bayar sesuai pemakaian secara default jika Anda melebihi kuota maksimum Provisioned Throughput atau jika Anda telah menggunakan header HTTP shared.

Awalan jalur

Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving.

Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik

Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel untuk model Gemini. Gunakan jenis permintaan dedicated untuk memfilter penggunaan Throughput yang Disediakan.

Metrik Nama tampilan Deskripsi
/dedicated_gsu_limit Batas (GSU) Batas khusus di GSU. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan di GSU.
/tokens Token Distribusi jumlah token input dan output.
/token_count Jumlah token Jumlah token input dan output yang terakumulasi.
/consumed_token_throughput Throughput token Penggunaan throughput, yang memperhitungkan rasio burndown dalam token dan menggabungkan rekonsiliasi kuota. Lihat Pemeriksaan kuota Throughput yang Disediakan.

Gunakan metrik ini untuk memahami cara penggunaan kuota Throughput yang Disediakan.
/dedicated_token_limit Batas (token per detik) Batas khusus dalam token per detik. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan untuk model berbasis token.
/characters Karakter Distribusi jumlah karakter input dan output.
/character_count Jumlah karakter Jumlah karakter input dan output yang terakumulasi.
/consumed_throughput Throughput karakter Penggunaan throughput, yang memperhitungkan rasio burndown dalam karakter dan menggabungkan rekonsiliasi kuota Pemeriksaan kuota Throughput yang Disediakan.

Gunakan metrik ini untuk memahami penggunaan kuota Throughput yang Disediakan.

Untuk model berbasis token, metrik ini setara dengan throughput yang digunakan dalam token yang dikalikan dengan 4.
/dedicated_character_limit Batas (karakter per detik) Batas khusus dalam karakter per detik. Gunakan metrik ini untuk memahami kuota maksimum Throughput yang Disediakan untuk model berbasis karakter.
/model_invocation_count Jumlah pemanggilan model Jumlah pemanggilan model (permintaan prediksi).
/model_invocation_latencies Latensi pemanggilan model Latensi pemanggilan model (latensi prediksi).
/first_token_latencies Latensi token pertama Durasi dari permintaan yang diterima hingga token pertama ditampilkan.

Model antropogenik juga memiliki filter untuk Provisioned Throughput, tetapi hanya untuk tokens/token_count.

Dasbor

Dasbor pemantauan default untuk Provisioned Throughput memberikan metrik yang memungkinkan Anda lebih memahami penggunaan dan pemanfaatan Provisioned Throughput. Untuk mengakses dasbor, lakukan hal berikut:

  1. Di konsol Google Cloud, buka halaman Provisioned Throughput.

    Buka Throughput yang Disediakan

  2. Untuk melihat penggunaan Throughput yang Disediakan dari setiap model di seluruh pesanan Anda, pilih tab Ringkasan penggunaan.

  3. Pilih model dari tabel Penggunaan Throughput yang disediakan menurut model untuk melihat metrik lainnya yang khusus untuk model yang dipilih.

Batasan dasbor

Dasbor mungkin menampilkan hasil yang tidak Anda harapkan, terutama jika traffic berfluktuasi. Alasan berikut mungkin berkontribusi pada hasil tersebut:

  • Rentang waktu yang lebih besar dari 12 jam dapat menyebabkan representasi periode penerapan kuota yang kurang akurat. Metrik throughput dan turunannya, seperti penggunaan, menampilkan rata-rata di seluruh periode penyesuaian yang didasarkan pada rentang waktu yang dipilih. Saat rentang waktu diperluas, setiap periode perataan juga diperluas. Periode penyelarasan diperluas di seluruh penghitungan penggunaan rata-rata. Karena penerapan kuota dihitung pada tingkat sub-menit, menetapkan rentang waktu ke periode 12 jam atau kurang akan menghasilkan data tingkat menit yang lebih sebanding dengan periode penerapan kuota yang sebenarnya. Untuk informasi selengkapnya tentang periode perataan, lihat Perataan: regularisasi dalam seri. Untuk informasi selengkapnya tentang rentang waktu, lihat Menormalisasi interval waktu.
  • Jika beberapa permintaan dikirimkan secara bersamaan, agregasi pemantauan mungkin memengaruhi kemampuan Anda untuk memfilter ke permintaan tertentu.
  • Throughput yang Disediakan akan membatasi traffic saat permintaan dibuat, tetapi melaporkan metrik penggunaan setelah kuota direkonsiliasi.
  • Periode penegakan kuota Throughput yang Disediakan tidak bergantung pada dan mungkin tidak selaras dengan periode agregasi pemantauan atau periode permintaan atau respons.
  • Jika tidak ada error yang terjadi, Anda mungkin melihat pesan error dalam diagram tingkat error. Misalnya, Terjadi error saat meminta data. Satu atau beberapa resource tidak dapat ditemukan.

Pemberitahuan

Setelah pemberitahuan diaktifkan, tetapkan pemberitahuan default untuk membantu Anda mengelola penggunaan traffic.

Mengaktifkan notifikasi

Untuk mengaktifkan pemberitahuan di dasbor, lakukan tindakan berikut:

  1. Di konsol Google Cloud, buka halaman Provisioned Throughput.

    Buka Throughput yang Disediakan

  2. Untuk melihat penggunaan Throughput yang Disediakan dari setiap model di seluruh pesanan Anda, pilih tab Ringkasan penggunaan.

  3. Pilih Notifikasi yang direkomendasikan, dan notifikasi berikut akan ditampilkan:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Periksa notifikasi yang membantu Anda mengelola traffic.

Melihat detail notifikasi selengkapnya

Untuk melihat informasi selengkapnya tentang pemberitahuan, lakukan tindakan berikut:

  1. Buka halaman Integrasi.

    Buka Integrasi

  2. Masukkan vertex ke kolom Filter, lalu tekan Enter. Google Vertex AI akan muncul.

  3. Untuk melihat informasi selengkapnya, klik Lihat detail. Panel Detail Google Vertex AI akan ditampilkan.

  4. Pilih tab Alerts, dan Anda dapat memilih template Alert Policy.

Langkah berikutnya