Halaman ini diterjemahkan oleh Cloud Translation API.

Menghitung persyaratan Throughput yang Disediakan

Bagian ini menjelaskan konsep unit penskalaan AI generatif (GSU) dan rasio penyelesaian. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSU) dan rasio pengurangan.

GSU dan laju penyelesaian

Unit Skala AI Generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan seberapa besar throughput yang akan disediakan untuk model.

Rasio penyelesaian adalah rasio yang mengonversi satuan input dan output (seperti token, karakter, atau gambar) menjadi token input per detik, karakter input per detik, atau gambar input per detik. Rasio ini merepresentasikan throughput dan digunakan untuk menghasilkan unit standar di seluruh model.

Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian GSU minimum dan kenaikan untuk setiap model, lihat Model yang didukung dan rasio penyelesaian dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.

Pertimbangan Penting

Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:

Permintaan diprioritaskan.

Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.
Throughput tidak terakumulasi.

Throughput yang tidak digunakan tidak diakumulasikan atau diteruskan ke bulan berikutnya.
Throughput yang Disediakan diukur dalam token per detik, karakter per detik, atau gambar per detik.

Throughput yang Disediakan tidak hanya diukur berdasarkan kueri per menit (QPM). Penggunaan ini diukur berdasarkan ukuran kueri untuk kasus penggunaan Anda, ukuran respons, dan QPM.
Throughput yang Disediakan khusus untuk project, region, model, dan versi.

Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-versi tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan dihitung dalam kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.

Context caching

Throughput yang Disediakan mendukung penyimpanan cache konteks implisit. Tidak mendukung caching konteks eksplisit. Traffic caching konteks eksplisit dipindahkan dari Throughput yang Disediakan ke model bayar sesuai penggunaan.

Caching implisit diaktifkan di semua Google Cloud project secara default. Penyimpanan dalam cache implisit mengurangi biaya dan latensi selama cache hit. Untuk model Gemini 2.0 Flash, Gemini 2.5 Flash, dan Gemini 2.5 Pro, token yang di-cache dikenai biaya dengan diskon 75% dibandingkan dengan token input standar saat terjadi hit cache. Untuk Throughput yang Disediakan, diskon diterapkan melalui tingkat penyusutan yang lebih rendah.

Misalnya, Gemini 2.5 Pro memiliki rasio penyelesaian berikut untuk token teks input dan token yang di-cache:

1 token teks input = 1 token
1 token teks yang di-cache input = 0,25 token

Mengirim 1.000 token input ke model ini akan mengakibatkan penurunan Throughput yang Disediakan sebesar 1.000 token input per detik. Namun, jika Anda mengirim 1.000 token yang di-cache ke Gemini 2.5 Pro, hal ini akan mengakibatkan penurunan Throughput yang Disediakan sebesar 250 token per detik.

Perhatikan bahwa hal ini dapat menghasilkan throughput yang lebih tinggi untuk kueri serupa yang tokennya tidak di-cache dan diskon cache tidak diterapkan.

Untuk melihat rasio penyusutan model yang didukung di Throughput yang Disediakan, lihat Model yang didukung dan rasio penyusutan.

Memahami burndown untuk Live API

Throughput yang Disediakan mendukung Gemini 2.5 Flash dengan Live API. Untuk memahami cara menghitung penurunan saat menggunakan Live API, lihat Menghitung throughput untuk Live API.

Untuk mengetahui informasi selengkapnya tentang penggunaan Throughput yang Disediakan untuk Gemini 2.5 Flash dengan Live API, lihat Throughput yang Disediakan untuk Live API.

Contoh memperkirakan kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud . Contoh berikut mengilustrasikan proses memperkirakan jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam perhitungan estimasi.

Tabel ini memberikan rasio penyelesaian untuk gemini-2.0-flash yang dapat Anda gunakan untuk mengikuti contoh.

Model	Throughput per GSU	Unit	Kenaikan pembelian GSU minimum	Rasio penyelesaian
Gemini 2.0 Flash	3.360	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token

Kumpulkan persyaratan Anda.
1. Dalam contoh ini, persyaratan Anda adalah memverifikasi bahwa Anda dapat mendukung 10 kueri per detik (QPS) dari kueri dengan input 1.000 token teks dan 500 token audio, untuk menerima output 300 token teks menggunakan gemini-2.0-flash.
  
  Langkah ini berarti Anda memahami kasus penggunaan Anda, karena Anda telah mengidentifikasi model, QPS, dan ukuran input serta output Anda.
2. Untuk menghitung throughput, lihat tingkat penyelesaian untuk model yang Anda pilih.
Hitung throughput Anda.
1. Kalikan input Anda dengan rasio penyelesaian untuk mendapatkan total token input:
  
  1.000&ast;(1 token per token teks input) + 500&ast;(7 token per token audio input) = 4.500 token input yang disesuaikan dengan burndown per kueri.
2. Kalikan output Anda dengan rasio penyelesaian untuk mendapatkan total token output:
  
  300&ast;(4 token per token teks output) = 1.200 token output yang disesuaikan dengan burndown per kueri
3. Jumlahkan total Anda:
  
  4.500 token input yang disesuaikan dengan laju penyelesaian + 1.200 token output yang disesuaikan dengan laju penyelesaian = 5.700 total token per kueri
4. Kalikan jumlah total token dengan QPS untuk mendapatkan total throughput per detik:
  
  5.700 total token per kueri * 10 QPS = 57.000 total token per detik
Hitung GSU Anda.
1. GSU adalah total token per detik dibagi dengan throughput per detik per GSU dari tabel burndown.
  
  57.000 total token per detik ÷ 3.360 throughput per detik per GSU = 16,96 GSU
2. Peningkatan pembelian GSU minimum untuk gemini-2.0-flash adalah 1, jadi Anda memerlukan 17 GSU untuk memastikan workload Anda.

Langkah berikutnya

Beli Throughput yang Disediakan.