Model Google
Tabel berikut menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model Google yang mendukung Provisioned Throughput. Throughput per detik Anda ditentukan sebagai input perintah dan output yang dihasilkan di semua permintaan per detik.
Throughput yang Disediakan hanya mendukung model yang Anda panggil langsung dari project menggunakan API model dan tidak mendukung model yang dipanggil oleh produk Vertex AI lainnya, termasuk Agen Vertex AI dan Penelusuran Vertex AI.
Untuk mengetahui jumlah token yang diperlukan beban kerja Anda, lihat tokenizer SDK atau countTokens API.
Model | Throughput per detik per GSU | Unit | Penambahan pembelian GSU minimum | Rasio burndown |
---|---|---|---|---|
Gemini 2.0 Flash-Lite | 6.720 | Token | 1 | 1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks output = 4 token |
Gemini 2.0 Flash | 3.360 | Token | 1 | 1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token |
Imagen 3 | 0,025 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Imagen 3 Fast | 0,05 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Imagen 2 | 0,05 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Imagen 2 Edit | 0,05 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Media MedLM | 2.000 | Karakter | 1 | 1 karakter input = 1 karakter 1 karakter output = 2 karakter |
MedLM besar | 200 | Karakter | 1 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter |
MedLM besar 1.5 | 200 | Karakter | 1 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter |
Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.
Anda dapat mengupgrade ke model baru saat model tersebut tersedia. Untuk mengetahui informasi tentang tanggal ketersediaan dan penghentian model, lihat model Google.
Dukungan model yang dioptimalkan dengan pengawasan
Hal berikut didukung untuk model Google yang mendukung penyesuaian yang diawasi:
Throughput yang Disediakan dapat diterapkan ke model dasar dan versi yang disesuaikan dengan pengawasan dari model dasar tersebut.
Endpoint model yang disesuaikan dan dikontrol serta jumlah model dasarnya yang sesuai terhadap kuota Throughput yang Disediakan yang sama.
Misalnya, Throughput yang Disediakan yang dibeli untuk
gemini-2.0-flash-lite-001
untuk project tertentu akan memprioritaskan permintaan yang dibuat dari versigemini-2.0-flash-lite-001
yang disesuaikan dan diawasi yang dibuat dalam project tersebut. Gunakan header yang sesuai untuk mengontrol perilaku traffic.
Model lama Google
Lihat Model lama yang mendukung Provisioned Throughput.
Model partner
Tabel berikut menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model partner yang mendukung Provisioned Throughput. Model Claude diukur dalam token per detik, yang didefinisikan sebagai total token input dan output di semua permintaan per detik.
Model | Throughput per GSU (token/dtk) | Pembelian GSU minimum | Penambahan pembelian GSU | Rasio burndown |
---|---|---|---|---|
Claude 3.7 Sonnet dari Anthropic | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3.5 Sonnet v2 dari Anthropic | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3.5 Haiku dari Anthropic | 2.000 | 10 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3 Opus dari Anthropic | 70 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3 Haiku dari Anthropic | 4.200 | 5 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3.5 Sonnet dari Anthropic | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token |
Untuk mengetahui informasi tentang lokasi yang didukung, lihat Ketersediaan region Anthropic Claude. Untuk memesan Throughput yang Disediakan untuk model Anthropic, hubungi Google Cloud perwakilan akun Anda.