Bagian ini menjelaskan cara kerja Throughput yang Disediakan dengan Live API untuk penghitungan token dan penerapan kuota.
Live API mendukung interaksi multimodal latensi rendah melalui sesi. Agen ini menggunakan memori sesi untuk menyimpan dan memanggil kembali informasi dari interaksi dalam sesi. Hal ini memungkinkan model mengingat informasi yang sebelumnya diberikan atau dibahas. Throughput yang Disediakan mendukung model Gemini 2.5 Flash dengan Live API. Untuk mengetahui informasi selengkapnya tentang Live API, termasuk batas dan kemampuan sesi, lihat referensi Live API.
Menghitung throughput untuk Live API
Saat menggunakan Live API, token yang disimpan dalam memori sesi dapat digunakan dalam permintaan berikutnya ke model. Akibatnya, Throughput yang Disediakan memperhitungkan token masuk serta token memori sesi dalam permintaan yang sama. Hal ini dapat menyebabkan jumlah token yang diproses per permintaan lebih besar daripada token yang dikirim oleh pengguna dalam permintaan yang sedang berlangsung.
Live API memiliki batas pada total token yang dapat disimpan dalam memori sesi dan juga memiliki kolom metadata yang berisi total jumlah token. Saat menghitung seberapa besar throughput yang diperlukan untuk melayani permintaan Anda, Anda harus memperhitungkan token dalam memori sesi. Jika telah menggunakan Live API dengan model bayar sesuai penggunaan (PayGo), Anda dapat menggunakan pola traffic dan token sesi ini untuk membantu memperkirakan kebutuhan Throughput yang Disediakan.
Contoh cara memperkirakan persyaratan Throughput yang Disediakan untuk Live API
Selama sesi, semua traffic diproses sebagai Throughput yang Disediakan atau bayar sesuai penggunaan. Jika Anda mencapai kuota Throughput yang Disediakan selama sesi, Anda akan menerima pesan error yang meminta Anda untuk mencoba lagi nanti. Setelah berada dalam kuota, Anda dapat melanjutkan pengiriman permintaan. Status sesi, termasuk memori sesi, tersedia selama sesi berlangsung.
Contoh ini menggambarkan cara dua permintaan berurutan diproses dengan menyertakan token dari memori sesi.
Detail permintaan#1
Durasi: 10 detik
Token yang dikirim (audio): 10 detik x 25 token/detik = 250 token
Token yang dikirim (video): 10 detik x 258 token/frame per detik = 2.580 token
Total token yang diproses untuk Request#1:
- Token yang dikirim: Jumlah token audio dan video yang dikirim = 2580+250 = 2830 token
- Token yang diterima: 100 (audio)
Detail permintaan#2
Durasi: 40 detik
Token yang dikirim (audio): 40 detik x 1.000 token
Total token yang diproses untuk Permintaan#2:
- Token yang dikirim: Token yang dikirim dalam Permintaan#2 + token memori sesi dari Permintaan#1 = 2.830 token + 1.000 token = 3.830 token
- Token yang diterima: 200 (audio)
Menghitung jumlah token yang diproses dalam permintaan
Jumlah token yang diproses selama permintaan ini dihitung sebagai berikut:
Request#1 hanya memproses token input dan output dari permintaan yang sedang berlangsung, karena tidak ada token tambahan dalam memori sesi.
Permintaan #2 memproses token input dan output dari permintaan yang sedang berlangsung, tetapi juga menyertakan token input dari memori sesi, yang terdiri dari token input dari permintaan sebelumnya (Permintaan #1) dari memori sesi. Rasio penurunan untuk token dalam memori sesi sama dengan rasio penurunan untuk token input standar (1 token memori sesi input = 1 token input).
Jika Request#2 memerlukan waktu tepat 1 detik untuk diproses setelah Anda mengirimkannya, token Anda akan diproses dan diterapkan ke kuota Throughput yang Disediakan, sebagai berikut:
Kalikan input Anda dengan rasio penyelesaian untuk mendapatkan total token input:
2830 x (1 token per token memori sesi) + 1000 x (1 token per token teks input) = 3830 token input yang disesuaikan untuk burn-down per kueri
Kalikan output Anda dengan rasio penyelesaian untuk mendapatkan total token output:
200 x (6 token per token output audio) = 1.200 token
Tambahkan kedua total ini untuk mendapatkan jumlah total token yang diproses:
3.830 token + 1.200 token = 5.030 token
Jika kuota Throughput yang Disediakan Anda lebih besar dari 5.030 token per detik, permintaan ini dapat segera diproses. Jika kurang, token akan diproses dari waktu ke waktu dengan kecepatan yang telah Anda tetapkan untuk kuota.