Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Kuota dan batas sistem AI Generatif di Vertex AI

Halaman ini memperkenalkan dua cara untuk menggunakan layanan AI generatif, memberikan daftar kuota menurut wilayah dan model, serta menunjukkan cara melihat dan mengedit kuota di konsol Google Cloud .

Ringkasan

Ada dua cara untuk menggunakan layanan AI generatif. Anda dapat memilih bayar sesuai penggunaan (PayGo), atau Anda dapat membayar di muka menggunakan Throughput yang Disediakan.

Jika Anda menggunakan PayGo, penggunaan fitur AI generatif oleh Anda tunduk pada salah satu sistem kuota berikut, bergantung pada model yang Anda gunakan:

Model yang lebih lama dari Gemini 2.0 menggunakan sistem kuota standar untuk setiap model AI generatif guna membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project tertentu dan region yang didukung. Google Cloud
Model yang lebih baru menggunakan kuota bersama dinamis (DSQ), yang secara dinamis mendistribusikan kapasitas PayGo yang tersedia di antara semua pelanggan untuk model dan region tertentu, sehingga tidak perlu menetapkan kuota dan mengirimkan permintaan peningkatan kuota. Tidak ada kuota dengan DSQ.

Untuk membantu memastikan ketersediaan tinggi aplikasi Anda dan mendapatkan tingkat layanan yang dapat diprediksi untuk workload produksi Anda, lihat Throughput yang Disediakan.

Sistem kuota menurut model

Model berikut mendukung Kuota bersama dinamis (DSQ):

Gemini 2.5 Flash-Lite
Pratinjau
Gemini 2.0 Flash dengan Live API
Pratinjau
Gemini 2.0 Flash dengan pembuatan gambar
Pratinjau
Gemini 2.5 Pro
Gemini 2.5 Flash
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Model Gemini lama berikut mendukung DSQ:

Gemini 1.5 Pro
Gemini 1.5 Flash

Model Gemini non-Gemini dan versi sebelumnya menggunakan sistem kuota standar. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI.

Kuota model yang disesuaikan

Inferensi model yang disesuaikan memiliki kuota yang sama dengan model dasar. Tidak ada kuota terpisah untuk inferensi model yang di-tune.

Batas penyematan teks

Setiap permintaan model penyematan teks dapat memiliki hingga 250 teks input (menghasilkan 1 penyematan per teks input) dan 20.000 token per permintaan. Hanya 2.048 token pertama dalam setiap teks input yang digunakan untuk menghitung embedding. Untuk gemini-embedding-001, setiap permintaan hanya dapat menyertakan satu teks input. Kuota untuk model ini tercantum di bagian nama gemini-embedding.

Token input konten sematan per menit per model dasar

Tidak seperti model embedding sebelumnya yang terutama dibatasi oleh kuota RPM, kuota untuk model Embedding Gemini membatasi jumlah token yang dapat dikirim per menit per project.

Kuota	Nilai
Token input konten sematan per menit	200000

Batas Vertex AI Agent Engine

Batas berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:

Deskripsi	Batas
Membuat, menghapus, atau memperbarui Agent Engine Vertex AI per menit	10
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit	100
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit	100
`Query` atau `StreamQuery` Vertex AI Agent Engine per menit	60
Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit	100
Jumlah maksimum resource Vertex AI Agent Engine	100
Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit	100
Mendapatkan, mencantumkan, atau mengambil dari Vertex AI Agent Engine Memory Bank per menit	300

Prediksi batch

Kuota dan batas untuk tugas inferensi batch sama di semua region.

Batas tugas inferensi batch serentak untuk model Gemini

Tidak ada batas kuota yang telah ditentukan sebelumnya pada inferensi batch untuk model Gemini. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan model secara real-time di semua pelanggan untuk model tersebut. Jika lebih banyak pelanggan yang aktif dan memenuhi kapasitas model, permintaan batch Anda mungkin diantrekan untuk kapasitas.

Kuota tugas inferensi batch serentak

Tabel berikut mencantumkan kuota untuk jumlah tugas inferensi batch serentak, yang tidak berlaku untuk model Gemini:

Kuota	Nilai
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Jika jumlah tugas yang dikirimkan melebihi kuota yang dialokasikan, tugas akan ditempatkan dalam antrean dan diproses saat kapasitas kuota tersedia.

Melihat dan mengedit kuota di konsol Google Cloud

Untuk melihat dan mengedit kuota di konsol Google Cloud , lakukan hal berikut:

Buka halaman Quotas and System Limits.

Buka Quotas and System Limits

Untuk menyesuaikan kuota, salin dan tempel properti aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model di Filter. Tekan Enter.
Klik tiga titik di akhir baris, lalu pilih Edit kuota.
Masukkan nilai kuota baru di panel, lalu klik Kirim permintaan.

Mesin RAG Vertex AI

Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).

Layanan	Kuota	Metrik
API pengelolaan data RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	1.500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Filter tambahan yang dapat Anda tentukan adalah `base_model: textembedding-gecko`

Batasan berikut berlaku:

Layanan	Batas	Metrik
Permintaan `ImportRagFiles` serentak	3 RPM	`VertexRagService concurrent import requests per region`
Jumlah maksimum file per permintaan `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Untuk mengetahui batas kapasitas dan kuota lainnya, lihat Batas kapasitas AI Generatif di Vertex AI.

Layanan evaluasi AI generatif

Layanan evaluasi AI generatif menggunakan gemini-2.0-flash sebagai model penilai default untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan evaluasi AI generatif. Kuota setiap model dihitung berdasarkan per project, yang berarti bahwa setiap permintaan yang ditujukan ke gemini-2.0-flash untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kouta untuk layanan evaluasi AI generatif dan model penilai yang mendasarinya ditampilkan dalam tabel berikut:

Minta kuota	Kuota default
Permintaan layanan evaluasi AI generatif per menit	1.000 permintaan per project per region
Permintaan prediksi online per menit untuk `base_model: gemini-2.0-flash`	Lihat Kuota menurut wilayah dan model.

Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi AI Generatif, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan mengelola kuota untuk mengetahui informasi selengkapnya.

Batas	Nilai
Waktu tunggu permintaan layanan evaluasi AI generatif habis	60 detik

Saat menggunakan layanan evaluasi AI generatif untuk pertama kalinya dalam project baru, Anda mungkin mengalami penundaan penyiapan awal hingga dua menit. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Jumlah maksimum token input dan output untuk metrik berbasis model bergantung pada model yang digunakan sebagai model penilai. Lihat Model Google untuk mengetahui daftar model.

Kuota Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.

Langkah berikutnya

Untuk mempelajari lebih lanjut kuota bersama dinamis, lihat Kuota bersama dinamis.
Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
Untuk mempelajari lebih lanjut kuota dan batas Google Cloud , lihat Memahami nilai kuota dan batas sistem.