GSU dan laju pembakaran
Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.
Rasio pembakaran adalah rasio yang mengonversi unit input dan output (seperti token, karakter, atau gambar) menjadi token input per detik, karakter input atau detik, atau gambar input per detik. Rasio ini mewakili throughput dan digunakan untuk menghasilkan unit standar di seluruh model.
Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.
Persamaan ini menunjukkan cara penghitungan throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.
Pertimbangan Penting
Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:
Permintaan diprioritaskan.
Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.
Throughput tidak terakumulasi.
Throughput yang tidak digunakan tidak akan diakumulasikan atau dialihkan ke bulan berikutnya.
Throughput yang Disediakan diukur dalam token per detik, karakter per detik, atau gambar per detik.
Throughput yang Disediakan tidak diukur hanya berdasarkan kueri per menit (QPM). Hal ini diukur berdasarkan ukuran kueri untuk kasus penggunaan Anda, ukuran respons, dan QPM.
Throughput yang Disediakan khusus untuk project, region, model, dan versi.
Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-version tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan mengurangi kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.
Contoh estimasi kebutuhan Throughput yang Disediakan
Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam penghitungan estimasi.
Tabel ini memberikan rasio pembakaran untuk gemini-2.0-flash
yang dapat Anda
gunakan untuk mengikuti contoh.
Model | Throughput per GSU | Unit | Penambahan pembelian GSU minimum | Rasio burndown |
---|---|---|---|---|
Gemini 2.0 Flash | 3.360 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token |
Kumpulkan persyaratan Anda.
Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mendukung 10 kueri per detik (QPS) dari kueri dengan input 1.000 token teks dan 500 token audio, untuk menerima output 300 token teks menggunakan
gemini-2.0-flash
.Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi model, QPS, serta ukuran input dan output.
Untuk menghitung throughput, lihat rasio pembakaran untuk model yang dipilih.
Hitung throughput Anda.
Kalikan input Anda dengan rasio burndown untuk mendapatkan total token input:
1.000*(1 token per token teks input) + 500*(7 token per token audio input) = 4.500 token input yang disesuaikan dengan burndown per kueri.
Kalikan output dengan rasio burndown untuk mendapatkan total token output:
300*(4 token per token teks output) = 1.200 token output yang disesuaikan dengan burndown per kueri
Tambahkan total Anda:
4.500 token input yang disesuaikan dengan pembakaran + 1.200 token output yang disesuaikan dengan pembakaran = 5.700 total token per kueri
Kalikan jumlah total token dengan QPS untuk mendapatkan throughput total per detik:
5.700 total token per kueri * 10 QPS = 57.000 total token per detik
Hitung GSU Anda.
GSU adalah total token per detik dibagi dengan throughput per detik per GSU dari tabel burndown.
Total token 57.000 per detik ÷ 3.360 throughput per detik per GSU = 16,96 GSU
Penambahan pembelian GSU minimum untuk
gemini-2.0-flash
adalah 1, sehingga Anda memerlukan 17 GSU untuk memastikan beban kerja Anda.