GSU dan laju penyelesaian
Unit Skala AI Generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan seberapa besar throughput yang akan disediakan untuk model.
Rasio penyelesaian adalah rasio yang mengonversi satuan input dan output (seperti token, karakter, atau gambar) menjadi token input per detik, karakter input per detik, atau gambar input per detik. Rasio ini merepresentasikan throughput dan digunakan untuk menghasilkan unit standar di seluruh model.
Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian GSU minimum dan kenaikan untuk setiap model, lihat Model yang didukung dan rasio penyelesaian dalam dokumen ini.
Persamaan ini menunjukkan cara penghitungan throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.
Pertimbangan Penting
Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:
Permintaan diprioritaskan.
Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.
Throughput tidak terakumulasi.
Throughput yang tidak digunakan tidak diakumulasikan atau diteruskan ke bulan berikutnya.
Throughput yang Disediakan diukur dalam token per detik, karakter per detik, atau gambar per detik.
Throughput yang Disediakan tidak hanya diukur berdasarkan kueri per menit (QPM). Hal ini diukur berdasarkan ukuran kueri untuk kasus penggunaan Anda, ukuran respons, dan QPM.
Throughput yang Disediakan khusus untuk project, region, model, dan versi.
Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-version tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan dihitung dalam kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.
Context caching
Throughput yang Disediakan mendukung penyimpanan cache konteks default. Namun, Throughput yang Disediakan tidak mendukung permintaan penyiapan cache menggunakan Vertex AI API yang mencakup pengambilan informasi tentang cache konteks.
Secara default, Google otomatis meng-cache input untuk mengurangi biaya dan latensi. Untuk model Gemini 2.5 Flash dan Gemini 2.5 Pro, token yang di-cache dikenai biaya dengan diskon 75% dibandingkan dengan token input standar saat terjadi hit cache. Untuk Throughput yang Disediakan, diskon diterapkan melalui tingkat penyusutan yang lebih rendah.
Misalnya, Gemini 2.5 Pro memiliki rasio penyusutan berikut untuk token teks input dan token yang di-cache:
1 token teks input = 1 token
1 token teks yang di-cache input = 0,25 token
Mengirim 1.000 token input ke model ini akan mengakibatkan penurunan Throughput yang Disediakan sebesar 1.000 token input per detik. Namun, jika Anda mengirim 1.000 token yang di-cache ke Gemini 2.5 Pro, hal ini akan menyebabkan penurunan Throughput yang Disediakan sebesar 250 token per detik.
Perhatikan bahwa hal ini dapat menghasilkan throughput yang lebih tinggi untuk kueri serupa yang tokennya tidak di-cache dan diskon cache tidak diterapkan.
Untuk melihat rasio penyusutan model yang didukung di Throughput yang Disediakan, lihat Model yang didukung dan rasio penyusutan.
Memahami burndown untuk Live API
Throughput yang Disediakan mendukung Gemini 2.5 Flash dengan Live API. Untuk memahami cara menghitung penurunan saat menggunakan Live API, lihat Menghitung throughput untuk Live API.
Untuk mengetahui informasi selengkapnya tentang penggunaan Throughput yang Disediakan untuk Gemini 2.5 Flash dengan Live API, lihat Throughput yang Disediakan untuk Live API.
Contoh memperkirakan kebutuhan Throughput yang Disediakan
Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud . Contoh berikut mengilustrasikan proses memperkirakan jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam perhitungan estimasi.
Tabel ini memberikan rasio penyelesaian untuk gemini-2.0-flash
yang dapat Anda gunakan untuk mengikuti contoh.
Model | Throughput per GSU | Unit | Kenaikan pembelian GSU minimum | Rasio penyelesaian |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token |
Kumpulkan persyaratan Anda.
Dalam contoh ini, persyaratan Anda adalah memverifikasi bahwa Anda dapat mendukung 10 kueri per detik (QPS) dari kueri dengan input 1.000 token teks dan 500 token audio, untuk menerima output 300 token teks menggunakan
gemini-2.0-flash
.Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi model, QPS, dan ukuran input serta output.
Untuk menghitung throughput, lihat tingkat penyelesaian untuk model yang Anda pilih.
Hitung throughput Anda.
Kalikan input Anda dengan rasio penyelesaian untuk mendapatkan total token input:
1.000*(1 token per token teks input) + 500*(7 token per token audio input) = 4.500 token input yang disesuaikan dengan burndown per kueri.
Kalikan output Anda dengan rasio penyelesaian untuk mendapatkan total token output:
300*(4 token per token teks output) = 1.200 token output yang disesuaikan dengan burndown per kueri
Jumlahkan total Anda:
4.500 token input yang disesuaikan dengan burndown + 1.200 token output yang disesuaikan dengan burndown = 5.700 total token per kueri
Kalikan jumlah total token dengan QPS untuk mendapatkan total throughput per detik:
5.700 total token per kueri * 10 QPS = 57.000 total token per detik
Hitung GSU Anda.
GSU adalah total token per detik dibagi dengan throughput per detik per GSU dari tabel burndown.
57.000 total token per detik ÷ 3.360 throughput per detik per GSU = 16,96 GSU
Peningkatan pembelian GSU minimum untuk
gemini-2.0-flash
adalah 1, jadi Anda memerlukan 17 GSU untuk memastikan workload Anda.