Kuota dan batas sistem AI Generatif di Vertex AI

Halaman ini memperkenalkan dua cara untuk menggunakan layanan AI generatif, memberikan daftar kuota menurut wilayah dan model, serta menunjukkan cara melihat dan mengedit kuota di konsol Google Cloud .

Ringkasan

Ada dua cara untuk menggunakan layanan AI generatif. Anda dapat memilih bayar sesuai penggunaan (PayGo), atau membayar di muka menggunakan Throughput yang Disediakan.

Jika Anda menggunakan PayGo, penggunaan fitur AI generatif oleh Anda tunduk pada salah satu sistem kuota berikut, bergantung pada model yang Anda gunakan:

  • Model sebelum Gemini 2.0 menggunakan sistem kuota standar untuk setiap model AI generatif guna membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk project Google Cloud tertentu dan region yang didukung.
  • Model yang lebih baru menggunakan Kuota bersama dinamis (DSQ), yang mendistribusikan kapasitas PayGo yang tersedia secara dinamis di antara semua pelanggan untuk model dan region tertentu, sehingga Anda tidak perlu menetapkan kuota dan mengirimkan permintaan peningkatan kuota. Tidak ada kuota dengan DSQ.

Untuk membantu memastikan ketersediaan tinggi bagi aplikasi Anda dan mendapatkan tingkat layanan yang dapat diprediksi untuk workload produksi, lihat Throughput yang Disediakan.

Sistem kuota menurut model

Model berikut mendukung Kuota bersama dinamis (DSQ):

Model Gemini lama berikut mendukung DSQ:

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Model non-Gemini dan Gemini versi sebelumnya menggunakan sistem kuota standar. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI.

Kuota model yang disesuaikan

Kuota berikut berlaku untuk AI Generatif pada model yang disesuaikan Vertex AI untuk project dan region tertentu:

Kuota Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region
* Region yang didukung - europe-west4
64
GPU Nvidia A100 80 GB untuk pelatihan gambar yang dibatasi per region
* Region yang didukung - us-central1
* Region yang didukung - us-east4

8
2
* Skenario penyesuaian memiliki reservasi akselerator di region tertentu. Kuota untuk penyesuaian didukung dan harus diminta di wilayah tertentu.

Batas penyematan teks

Setiap permintaan model penyematan teks dapat memiliki hingga 250 teks input (menghasilkan 1 penyematan per teks input) dan 20.000 token per permintaan.

Hanya 8.192 token pertama di setiap teks input yang digunakan untuk menghitung penyematan. Setiap permintaan mungkin hanya menyertakan satu teks input.

Batas Vertex AI Agent Engine

Batas berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region.

Deskripsi Batas
Membuat/Menghapus/Memperbarui Mesin Agen Vertex AI per menit 10
Membuat/Menghapus/Memperbarui Sesi Mesin Agen Vertex AI per menit 100
Mesin Agen Vertex AI Query/StreamQuery per menit 60
Menambahkan peristiwa ke Sesi Vertex AI Agent Engine per menit 100
Jumlah maksimum resource Vertex AI Agent Engine 100

Prediksi batch

Kuota dan batas untuk tugas prediksi batch sama di semua region.

Batas tugas prediksi batch serentak

Tabel berikut mencantumkan batas untuk jumlah tugas prediksi batch serentak:
Batas Nilai
Permintaan prediksi batch serentak, per region, untuk model Gemini 8
Jika jumlah tugas yang dikirim melebihi batas yang dialokasikan, tugas tersebut akan ditempatkan dalam antrean dan diproses saat kapasitas batas tersedia.

Kuota tugas prediksi batch serentak

Tabel berikut mencantumkan kuota untuk jumlah tugas prediksi batch serentak, yang tidak berlaku untuk model Gemini:
Kuota Nilai
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Jika jumlah tugas yang dikirim melebihi kuota yang dialokasikan, tugas tersebut akan ditempatkan dalam antrean dan diproses saat kapasitas kuota tersedia.

Melihat dan mengedit kuota di Google Cloud console

Untuk melihat dan mengedit kuota di konsol Google Cloud , lakukan tindakan berikut:
  1. Buka halaman Kuota dan Batas Sistem.
  2. Buka Kuota dan Batas Sistem

  3. Untuk menyesuaikan kuota, salin dan tempel properti aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model di Filter. Tekan Enter.
  4. Klik tiga titik di akhir baris, lalu pilih Edit kuota.
  5. Masukkan nilai kuota baru di panel, lalu klik Kirim permintaan.

Mesin RAG Vertex AI

Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).
Layanan Kuota Metrik
API pengelolaan data RAG Engine 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Filter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko
Batasan berikut berlaku:
Layanan Batas Metrik
Permintaan ImportRagFiles serentak 3 RPM VertexRagService concurrent import requests per region
Jumlah file maksimum per permintaan ImportRagFiles 10.000 VertexRagService import rag files requests per region

Untuk mengetahui batas kapasitas dan kuota selengkapnya, lihat Batas kapasitas AI Generatif di Vertex AI.

Layanan evaluasi AI generatif

Layanan evaluasi AI Generatif menggunakan gemini-2.0-flash sebagai model hakim default untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan evaluasi AI Generatif. Kuota setiap model dihitung berdasarkan per project, yang berarti bahwa setiap permintaan yang diarahkan ke gemini-2.0-flash untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota. Kuota untuk layanan evaluasi AI Generatif dan model hakim yang mendasarinya ditampilkan dalam tabel berikut:
Kuota permintaan Kuota default
Permintaan layanan evaluasi AI generatif per menit 1.000 permintaan per project per region
Permintaan prediksi online per menit untuk
base_model: gemini-2.0-flash
Lihat Kuota menurut wilayah dan model.

Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi Gen AI, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan mengelola kuota untuk mengetahui informasi selengkapnya.

Batas Nilai
Waktu tunggu permintaan layanan evaluasi AI generatif habis 60 detik

Saat menggunakan layanan evaluasi AI Generatif untuk pertama kalinya dalam project baru, Anda mungkin mengalami penundaan penyiapan awal hingga dua menit. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Token input dan output maksimum untuk metrik berbasis model bergantung pada model yang digunakan sebagai model hakim. Lihat Model Google untuk mengetahui daftar model.

Kuota Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.

Langkah berikutnya