Kuota bersama dinamis (DSQ) diperkenalkan untuk melayani permintaan bayar sesuai penggunaan (PayGo) Anda dengan fleksibilitas yang lebih besar untuk beradaptasi dengan kebutuhan beban kerja Anda tanpa harus mengelola kuota dan permintaan penambahan kuota (QIR). Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk penggunaan Anda. Sebagai gantinya, DSQ menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan resource real-time dan permintaan real-time di semua pelanggan model tersebut. Jika ada lebih banyak pelanggan yang aktif, setiap pelanggan akan mendapatkan throughput yang lebih rendah. Demikian pula, jika jumlah pelanggan lebih sedikit, setiap pelanggan mungkin mendapatkan throughput yang lebih tinggi.
Model yang didukung
Model Gemini berikut dan model penyesuaian yang diawasi mendukung DSQ:
- Gemini 2.5 Flash-Lite
Pratinjau - Gemini 2.0 Flash dengan Live API
Pratinjau - Gemini 2.0 Flash dengan pembuatan gambar
Pratinjau - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Model Gemini lama berikut mendukung DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Cara kerja DSQ
Kuota bersama dinamis (DSQ) beradaptasi dengan pola dan kebutuhan traffic Anda serta meminimalkan gesekan penggunaan. Akses project Anda ke resource di bawah DSQ tidak dibatasi oleh jumlah arbitrer yang kami tetapkan. Sebaliknya, kapasitas ditentukan oleh kapasitas keseluruhan kumpulan bersama dan permintaan kolektif saat ini dari semua pelanggan. Model ini dirancang untuk menawarkan fleksibilitas yang signifikan, sehingga beban kerja Anda dapat menggunakan lebih banyak resource saat tersedia. Sebaliknya, fitur ini juga memungkinkan semua pelanggan kumpulan bersama memiliki kesempatan untuk mengakses resource saat tersedia tanpa perlu mengonfigurasi kuota per pelanggan.
Untuk memastikan pengalaman yang adil dan stabil bagi semua pengguna di lingkungan resource bersama, Kuota Bersama Dinamis secara cerdas mengelola cara penanganan permintaan, terutama selama periode permintaan yang sangat tinggi dari sumber yang terisolasi. Daripada batas tetap, DSQ menggunakan pendekatan prioritas dinamis. Artinya, meskipun sistem dirancang untuk mengakomodasi lonjakan, lonjakan traffic yang sangat besar dan cepat dari satu sumber dapat ditangani dengan prioritas yang berbeda daripada traffic yang lebih konsisten dan stabil. Pengelolaan yang canggih ini memastikan bahwa aktivitas pengguna yang luas dan beban kerja reguler terlindungi dari lonjakan ekstrem yang bersifat sementara, sehingga meningkatkan stabilitas sistem secara keseluruhan dan akses yang adil.
Permintaan Gemini dengan input multimodal tunduk pada batas frekuensi sistem yang sesuai yang mencakup gambar, audio, video, dan dokumen.
Untuk membantu memastikan ketersediaan tinggi aplikasi Anda dan mendapatkan tingkat layanan yang dapat diprediksi untuk workload produksi Anda, lihat Throughput yang Disediakan.
Memahami error 429 karena Kehabisan Resource di DSQ
Kami memahami bahwa error 429 'resource exhausted' dapat membuat Anda frustrasi dan mungkin membuat Anda menduga bahwa Anda telah mencapai batas kuota tertentu. Namun, dengan DSQ, hal ini tidak terjadi. Error ini menunjukkan bahwa kumpulan resource bersama secara keseluruhan untuk jenis tertentu (misalnya, model tertentu di wilayah tertentu) pada waktu tertentu mengalami permintaan yang sangat tinggi dari banyak pengguna secara bersamaan. Anggap saja seperti mencoba naik kereta yang sangat populer saat jam sibuk. Tidak ada 'batas tiket' khusus untuk Anda, tetapi kereta itu sendiri mungkin penuh untuk sementara. Status ini adalah status sementara persaingan untuk mendapatkan resource, bukan batas tetap yang diberlakukan pada project Anda.
DSQ terus berupaya mengelola dan mendistribusikan kapasitas yang tersedia secara adil dan efisien. Saat Anda menerima error tersebut, berarti permintaan instan telah melampaui pasokan yang tersedia di gabungan tersebut. Tidak seperti kuota ketat yang akan memblokir Anda meskipun resource tidak digunakan di tempat lain, DSQ bertujuan memberi Anda akses kapan pun resource tersedia. Error kehabisan kuota mencerminkan beban sistem secara keseluruhan saat ini, bukan batas atas akun Anda.
Sebaiknya terapkan mekanisme coba lagi, karena ketersediaan di lingkungan dinamis ini dapat berubah dengan cepat. Untuk mengetahui taktik lainnya dalam menangani error Kehabisan Resource, lihat Panduan untuk menangani error 429 atau Kode error 429.
Langkah berikutnya
- Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari lebih lanjut kuota dan batas Google Cloud , lihat Memahami nilai kuota dan batas sistem.