Menghitung persyaratan Throughput yang Disediakan

Bagian ini menjelaskan konsep unit penskalaan AI generatif (GSU) dan rasio penyelesaian. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSU) dan rasio penyusutan.

GSU dan laju penyelesaian

Unit Skala AI Generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan seberapa besar throughput yang akan disediakan untuk model.

Rasio penyelesaian adalah rasio yang mengonversi satuan input dan output (seperti token, karakter, atau gambar) menjadi token input per detik, karakter input per detik, atau gambar input per detik. Rasio ini merepresentasikan throughput dan digunakan untuk menghasilkan unit standar di seluruh model.

Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian GSU minimum dan kenaikan untuk setiap model, lihat Model yang didukung dan rasio penyelesaian dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.

Pertimbangan Penting

Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:

  • Permintaan diprioritaskan.

    Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.

  • Throughput tidak terakumulasi.

    Throughput yang tidak digunakan tidak diakumulasikan atau diteruskan ke bulan berikutnya.

  • Throughput yang Disediakan diukur dalam token per detik, karakter per detik, atau gambar per detik.

    Throughput yang Disediakan tidak hanya diukur berdasarkan kueri per menit (QPM). Hal ini diukur berdasarkan ukuran kueri untuk kasus penggunaan Anda, ukuran respons, dan QPM.

  • Throughput yang Disediakan khusus untuk project, region, model, dan versi.

    Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-version tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan dihitung dalam kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.

Context caching

Throughput yang Disediakan mendukung penyimpanan cache konteks default. Namun, Throughput yang Disediakan tidak mendukung permintaan penyiapan cache menggunakan Vertex AI API yang mencakup pengambilan informasi tentang cache konteks.

Secara default, Google otomatis meng-cache input untuk mengurangi biaya dan latensi. Untuk model Gemini 2.5 Flash dan Gemini 2.5 Pro, token yang di-cache dikenai biaya dengan diskon 75% dibandingkan dengan token input standar saat terjadi hit cache. Untuk Throughput yang Disediakan, diskon diterapkan melalui tingkat penyusutan yang lebih rendah.

Misalnya, Gemini 2.5 Pro memiliki rasio penyusutan berikut untuk token teks input dan token yang di-cache:

  • 1 token teks input = 1 token

  • 1 token teks yang di-cache input = 0,25 token

Mengirim 1.000 token input ke model ini akan mengakibatkan penurunan Throughput yang Disediakan sebesar 1.000 token input per detik. Namun, jika Anda mengirim 1.000 token yang di-cache ke Gemini 2.5 Pro, hal ini akan menyebabkan penurunan Throughput yang Disediakan sebesar 250 token per detik.

Perhatikan bahwa hal ini dapat menghasilkan throughput yang lebih tinggi untuk kueri serupa yang tokennya tidak di-cache dan diskon cache tidak diterapkan.

Untuk melihat rasio penyusutan model yang didukung di Throughput yang Disediakan, lihat Model yang didukung dan rasio penyusutan.

Memahami burndown untuk Live API

Throughput yang Disediakan mendukung Gemini 2.5 Flash dengan Live API. Untuk memahami cara menghitung penurunan saat menggunakan Live API, lihat Menghitung throughput untuk Live API.

Untuk mengetahui informasi selengkapnya tentang penggunaan Throughput yang Disediakan untuk Gemini 2.5 Flash dengan Live API, lihat Throughput yang Disediakan untuk Live API.

Contoh memperkirakan kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud . Contoh berikut mengilustrasikan proses memperkirakan jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam perhitungan estimasi.

Tabel ini memberikan rasio penyelesaian untuk gemini-2.0-flash yang dapat Anda gunakan untuk mengikuti contoh.

Model Throughput per GSU Unit Kenaikan pembelian GSU minimum Rasio penyelesaian
Gemini 2.0 Flash 3.360 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 7 token
1 token teks output = 4 token
  1. Kumpulkan persyaratan Anda.

    1. Dalam contoh ini, persyaratan Anda adalah memverifikasi bahwa Anda dapat mendukung 10 kueri per detik (QPS) dari kueri dengan input 1.000 token teks dan 500 token audio, untuk menerima output 300 token teks menggunakan gemini-2.0-flash.

      Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi model, QPS, dan ukuran input serta output.

    2. Untuk menghitung throughput, lihat tingkat penyelesaian untuk model yang Anda pilih.

  2. Hitung throughput Anda.

    1. Kalikan input Anda dengan rasio penyelesaian untuk mendapatkan total token input:

      1.000*(1 token per token teks input) + 500*(7 token per token audio input) = 4.500 token input yang disesuaikan dengan burndown per kueri.

    2. Kalikan output Anda dengan rasio penyelesaian untuk mendapatkan total token output:

      300*(4 token per token teks output) = 1.200 token output yang disesuaikan dengan burndown per kueri

    3. Jumlahkan total Anda:

      4.500 token input yang disesuaikan dengan burndown + 1.200 token output yang disesuaikan dengan burndown = 5.700 total token per kueri

    4. Kalikan jumlah total token dengan QPS untuk mendapatkan total throughput per detik:

      5.700 total token per kueri * 10 QPS = 57.000 total token per detik

  3. Hitung GSU Anda.

    1. GSU adalah total token per detik dibagi dengan throughput per detik per GSU dari tabel burndown.

      57.000 total token per detik ÷ 3.360 throughput per detik per GSU = 16,96 GSU

    2. Peningkatan pembelian GSU minimum untuk gemini-2.0-flash adalah 1, jadi Anda memerlukan 17 GSU untuk memastikan workload Anda.

Langkah berikutnya