Biaya membangun dan men-deploy model AI di Vertex AI

Biaya dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Halaman ini membahas harga untuk AI Generatif di Vertex AI. Untuk semua harga Vertex AI lainnya, termasuk layanan Platform ML dan MLOps, lihat halaman harga Vertex AI.

Model Google

Gemini 2.5

Model Jenis Harga (/1 juta token) <= 200 ribu token input Harga (/1 juta token) > 200 ribu token input
Gemini 2.5 Pro
Input (teks, gambar, video, audio) $1.25 $2,5
Output teks (respons dan penalaran) $10 $15
Flash Gemini 2.5
Input (teks, gambar, video) $0,15 $0,15
Input Audio $1 $1
Output teks (tanpa berpikir) $0,60 $0,60
Output teks (pemikiran-respons dan penalaran) $3,50 $3,50
* Jika konteks input kueri lebih panjang dari 200 ribu token, semua token (input dan output) akan dikenai tarif konteks panjang.

Gemini 2.0

Gemini 2.0 ditagih berdasarkan token. Untuk menghitung jumlah token input dalam permintaan Anda sebelum mengirim permintaan, Anda dapat menggunakan tokenizer SDK atau countTokens API. Jika permintaan Anda gagal dengan error 400 atau 500, Anda tidak akan dikenai biaya untuk token yang digunakan.

Gunakan tombol di tabel harga untuk membandingkan harga berbasis token dan harga berbasis modalitas.

Harga berbasis token

Model Jenis Harga Harga dengan Batch API




Gemini 2.0 Flash
1 juta token Input $0,15 $0,075
1 juta token input audio $1,00 $0,50
1 juta token teks output $0,60 $0,30
Penyesuaian untuk 1 juta token pelatihan $3,00




API Live Gemini 2.0 Flash
1 juta token teks input $0,5
1 juta token input audio $3
1 juta token input video $3
1 juta token teks output $2
1 juta token audio output $12




Gemini 2.0 Flash-Lite
1 juta token Input $0,075 $0,0375
1 juta token Input audio $0,075 $0,0375
1 juta token teks output $0,30 $0,15
Penyesuaian untuk 1 juta token pelatihan $1,00


Grounding dengan Google Penelusuran
Gemini 2.0 Flash mencakup hingga 1.500 permintaan berbasis lokasi per hari tanpa biaya tambahan. Permintaan yang dilandasan
yang melebihi 1.500 per hari dikenai biaya $35 per 1.000 permintaan (hingga 1 juta permintaan per hari).

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.
Memahami data Anda $2,5 per 1.000 permintaan mulai 16 Juni 2025.

Web Grounding untuk perusahaan
$45 per 1.000 permintaan (hingga 1 juta permintaan per hari) mulai 5 Mei 2025.

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.

Harga berdasarkan modalitas

Harga modalitas di bawah ini didasarkan pada kasus penggunaan rata-rata dan hanya untuk referensi. Penagihan yang sebenarnya hanya akan didasarkan pada token:

  • 4 karakter menghasilkan sekitar 1 token teks termasuk spasi putih.
  • Untuk gambar 1024x1024, token yang digunakan adalah 1.290. Jumlah token per image bervariasi berdasarkan resolusi gambar. Untuk mengetahui informasi selengkapnya tentang cara menghitung token, Anda dapat merujuk ke dokumentasi kami.
  • Input video menghabiskan 258 token per detik pada kecepatan sampel satu frame per detik. Tagihan video dengan audio untuk token video dan token audio.
  • Input audio menghabiskan 25 token per detik tanpa stempel waktu.
Model Jenis Harga Harga dengan Batch API




Gemini 2.0 Flash
Input teks ($/M karakter) $0,0375 $0,01875
Gambar input ($/gambar) $0,0001935 $0,00009675
Input video ($/dtk) $0,0000387 $0,00001935
Input audio ($/dtk) $0,000025 $0,0000125
Teks output ($/M karakter) $0,15 $0,075




Gemini 2.0 Flash-Lite
Input teks ($/M karakter) $0,01875 $0,009375
Gambar input ($/gambar) $0,00009675 $0,000048375
Input video ($/dtk) $0,00001935 $0,000009675
Input audio ($/dtk) $0,000001875 $0,000000938
Teks output ($/M karakter) $0,075 $0,0375


Grounding dengan Google Penelusuran
Gemini 2.0 Flash mencakup hingga 1.500 permintaan berbasis lokasi per hari tanpa biaya tambahan. Permintaan yang dilandasan
yang melebihi 1.500 per hari dikenai biaya $35 per 1.000 permintaan (hingga 1 juta permintaan per hari).

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.

Web Grounding untuk perusahaan
$45 per 1.000 permintaan (hingga 1 juta permintaan per hari) mulai 5 Mei 2025.

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.

* Harga dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.
* PDF ditagih sebagai input gambar, dengan satu halaman PDF setara dengan satu gambar.
* Endpoint model yang telah disesuaikan memiliki harga prediksi yang sama dengan model dasar.
* Pemastian dengan Google Penelusuran hanya ditagih untuk permintaan yang menampilkan hasil yang berisi setidaknya satu URL dukungan pemastian dari web. Biaya penggunaan model Gemini standar juga berlaku.
* Gemini 2.0 Flash Live API: 25 token per detik audio (input/output), 258 token per detik video (input). Grounding dengan Google Penelusuran tetap gratis selama Gemini 2.0 Flash Live API masih dalam tahap Pratinjau.

Harga Vertex AI Model Optimizer (Eksperimental)*

Vertex AI Model Optimizer menyederhanakan penggunaan Gemini untuk pelanggan perusahaan dengan menyediakan meta-endpoint tunggal untuk permintaan model Gemini. Pelanggan yang menggunakan layanan ini tidak perlu menentukan apakah akan menggunakan Flash, Pro, atau versi tertentu. Sebaliknya, mereka cukup memberikan setelan yang dapat dikonfigurasi (biaya, kualitas, atau keseimbangan) untuk menunjukkan preferensi mereka, dan Pengoptimal Model akan menerapkan tingkat kecerdasan yang tepat untuk tugas tersebut dengan mengirimkan setiap kueri ke model yang paling cocok.

Vertex AI Model Optimizer menerapkan harga dinamis. Artinya, harga rata-rata per token bergantung pada tingkat kecerdasan model yang diterapkan untuk menyelesaikan tugas. Oleh karena itu, contoh harga diberikan di bawah untuk menggambarkan kemungkinan skenario berdasarkan setelan konfigurasi Anda (lihat tabel di bawah). SKU Model Optimizer adalah SKU seharga $1 yang berfungsi sebagai unit pembelian untuk menerapkan penagihan Anda. Anda tetap akan ditagih berdasarkan konsumsi setelah menggunakan model.

Rasio I/O 5:1 Contoh 1
bot chat
CATATAN: rentang ini bukan jaminan, hasil setiap pelanggan mungkin berbeda-beda
Preferensi Pelanggan Token Input Pelanggan Dikirim ke MO Token Output Pelanggan Dikirim ke MO Harga Input Rata-Rata per Juta Token (Rentang Tinggi) Harga Output Rata-Rata per Juta Token (Rentang Tinggi) Harga Input Rata-Rata per Juta Token (Rentang Rendah) Harga Output Rata-Rata per Juta Token (Rentang Rendah)
Biaya 10.000.000 2.000.000 $0,63 $2,50 $0,16 $0,63
Seimbang 10.000.000 2.000.000 $1,26 $5,00 $0,63 $2,50
Kualitas 10.000.000 2.000.000 $1,89 $7,50 $1,26 $5,00
Rasio I/O 1:20 Contoh 2 Pembuatan konten
Preferensi Pelanggan Token Input Pelanggan Dikirim ke MO Token Output Pelanggan Dikirim ke MO Harga Input Rata-Rata per Juta Token (Rentang Tinggi) Harga Output Rata-Rata per Juta Token (Rentang Tinggi) Harga Input Rata-Rata per Juta Token (Rentang Rendah) Harga Output Rata-Rata per Juta Token (Rentang Rendah)
Biaya 1.000.000 20.000.000 $0,63 $2,50 $0,16 $0,63
Seimbang 1.000.000 20.000.000 $1,26 $5,00 $0,63 $2,50
Kualitas 1.000.000 20.000.000 $1,89 $7,50 $1,26 $5,00

* Model Optimizer adalah penawaran eksperimental berbayar, dan dapat mengarahkan permintaan ke versi eksperimental Gemini di Vertex.

Model Gemini lainnya

Semua model Gemini selain Gemini 2.0 ditagih berdasarkan modalitas seperti karakter, gambar, detik video/audio. Input teks dikenai biaya per 1.000 karakter input (prompt) dan per 1.000 karakter output (respons). Karakter dihitung berdasarkan poin kode UTF-8 dan spasi dikecualikan dari hitungan, sehingga menghasilkan sekitar 4 karakter per token. Permintaan prediksi yang menghasilkan respons yang difilter hanya dikenakan biaya untuk input. Pada akhir setiap siklus penagihan, pecahan dari satu sen ($0,01) dibulatkan menjadi satu sen. Input media dikenai biaya per gambar atau per detik (video). Jika permintaan Anda gagal dengan error 400 atau 500, Anda tidak akan dikenai biaya untuk token yang digunakan.

Model Fitur Jenis Harga
( =< 128 ribu token input)
Harga
( > 128 ribu token input)
Gemini 1.5 Flash Multimodal Input Gambar
Input Video
Input Teks
Input Audio
$0,00002 / gambar
$0,00002 / detik
$0,00001875 / 1 ribu karakter
$0,000002 / detik
$0,00004 / gambar
$0,00004 / detik
$0,0000375 / 1.000 karakter
$0,000004 / detik
Output Teks $0,000075 / 1.000 karakter $0,00015 / 1.000 karakter
Penyesuaian* Token Pelatihan $8 / Juta token
Gemini 1.5 Pro Multimodal Input Gambar
Input Video
Input Teks
Input Audio
$0,00032875 / gambar
$0,00032875 / detik
$0,0003125 / 1 ribu karakter
$0,00003125 / detik
$0,0006575 / gambar
$0,0006575 / detik
$0,000625 / 1 ribu karakter
$0,0000625 / detik
Output Teks $0,00125 / 1.000 karakter $0,0025 / 1.000 karakter
Penyesuaian* Token Pelatihan $80 / M token
Gemini 1.0 Pro Multimodal Input Gambar
Input Video
Input Teks
$0,0025 / gambar
$0,002 / detik
$0,000125 / 1.000 karakter
Output Teks $0,000375 / 1.000 karakter
Grounding dengan Google Penelusuran Teks Permintaan pembumian $35 / 1.000 permintaan (hingga 1 juta permintaan per hari).
Hubungi tim akun Anda jika Anda memerlukan lebih dari
1 juta permintaan per hari.
Web Grounding untuk perusahaan Teks $45 per 1.000 permintaan (hingga 1 juta permintaan per hari) mulai 5 Mei 2025.

Hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.
Memahami data Anda Teks $2,5 per 1.000 permintaan mulai 16 Juni 2025.

* Harga dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.
* Jika konteks kueri lebih panjang dari 128 ribu, semua token akan dikenai biaya sesuai tarif konteks panjang.
* Model Gemini tersedia dalam mode batch dengan diskon 50%.
* Gemini 1.0 Pro hanya mendukung jendela konteks hingga 32 ribu token.
* PDF ditagih sebagai input gambar, dengan satu halaman PDF setara dengan satu gambar.
* Endpoint model yang telah disesuaikan memiliki harga prediksi yang sama dengan model dasar.
* Grounding dengan Google Penelusuran: Jika Anda menggunakan pengambilan data dinamis untuk mengoptimalkan biaya, hanya permintaan yang berisi setidaknya satu URL dukungan pembumian dari web dalam responsnya yang akan dikenai biaya untuk Grounding dengan Google Penelusuran. Biaya untuk Gemini selalu berlaku.

Imagen

Dengan Imagen di Vertex AI, Anda dapat menghasilkan gambar baru dan mengedit gambar berdasarkan perintah teks yang Anda sediakan, atau hanya mengedit bagian gambar menggunakan area mask yang Anda tentukan bersama dengan sejumlah kemampuan lainnya.

Model Fitur Deskripsi Input Output Harga
Image 3 Pembuatan gambar Buat gambar
Mengedit gambar
Menyesuaikan gambar
Perintah teks Gambar $0,04 per image
Imagen 3 Fast Pembuatan gambar Buat gambar Perintah teks Gambar $0,02 per gambar
Imagen 2, Imagen Pembuatan gambar Buat gambar Perintah teks Gambar $0,020 per gambar
Pengeditan gambar Mengedit gambar menggunakan pendekatan mask atau tanpa mask Perintah Gambar/Teks Gambar $0,020 per gambar
Peningkatan resolusi Meningkatkan resolusi gambar yang dihasilkan menjadi 2k dan 4k Gambar Gambar $0,003 per gambar
Fine tuning Mengaktifkan "subjek" yang disediakan oleh pengguna untuk digunakan dalam prompt Imagen (beberapa pelatihan pengambilan gambar) Subjek dengan ID teks dan 4-8 gambar per subjek Model yang telah melalui fine tuning (setelah pelatihan dengan subjek yang disediakan pengguna) $ per jam kerja node (harga pelatihan kustom Vertex AI)
Teks Keterangan Visual Membuat teks singkat atau panjang untuk gambar Gambar Teks keterangan $0,0015/gambar
Tanya Jawab Visual Memberikan jawaban berdasarkan pertanyaan yang merujuk ke gambar Perintah Gambar/Teks Jawaban teks $0,0015/gambar

Biaya dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.

Veo

Veo 2 membuat video berkualitas sangat tinggi dalam berbagai subjek dan gaya, sehingga memberikan pemahaman yang lebih baik tentang fisika dunia nyata dan nuansa gerakan serta ekspresi manusia.

Model Fitur Deskripsi Input Output Harga
Veo 2 Pembuatan video Membuat video dari prompt teks atau gambar referensi Perintah Teks/Gambar Video $0,50 per detik

Memahami biaya penyematan untuk aplikasi AI Anda

Model Fitur Deskripsi Input Output Harga
embedding multimodal Embedding untuk Multimodal: Teks Membuat embedding menggunakan teks sebagai input Teks Embedding $0,0002 / 1.000 input karakter
Embedding untuk Multimodal: Gambar Membuat embedding menggunakan gambar sebagai input Gambar Embedding $0,0001 / input gambar
Embedding untuk Multimodal: Video Plus Video Plus Video Embedding (hingga 15 penyematan per menit video) $0,0020 per detik video
Embedding untuk Multimodal: Standar Video Standar Video Video Embedding (hingga 8 embedding per menit video) $0,0010 per detik video
Embedding untuk Multimodal: Video Essential Video Esensial Video Embedding (hingga 4 penyematan per menit video) $0,0005 per detik video
Model Jenis Region Harga per 1.000 karakter
Embeddings for Text Input Global
  • Permintaan online: $0,000025
  • Permintaan batch: $0,00002
Output Global
  • Permintaan online: Tidak dikenakan biaya
  • Permintaan batch: Tidak dikenai biaya

Biaya dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.

Harga untuk penyelesaian kode Vertex AI

AI Generatif di Vertex AI mengenakan biaya per 1.000 karakter input (perintah) dan per 1.000 karakter output (respons). Karakter dihitung berdasarkan poin kode UTF-8 dan spasi dikecualikan dari hitungan. Selama tahap Pratinjau, tagihan didiskon 100%. Permintaan prediksi yang menghasilkan respons yang difilter hanya dikenakan biaya untuk input. Pada akhir setiap siklus penagihan, pecahan dari satu sen ($0,01) dibulatkan menjadi satu sen.

Model Jenis Region Harga per 1.000 karakter
Codey untuk Penyelesaian kode Input Global
  • Permintaan online: $0,00025
Output Global
  • Permintaan online: $0,0005

Biaya dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.

Terjemahan (Teks)

Gunakan Vertex AI API dan LLM Terjemahan untuk menerjemahkan teks. Terjemahan LLM cenderung lebih lancar dan terdengar lebih alami dibandingkan model terjemahan klasik, tetapi memiliki dukungan bahasa yang lebih terbatas (Pelajari Lebih Lanjut).

Model Metode Penggunaan Harga per satu juta karakter
LLM Terjemahan teks* Jumlah karakter input per bulan

$10 per juta karakter*

Jumlah karakter output per bulan

$10 per juta karakter*

Biaya dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.
*Harga dihitung per karakter yang diproses oleh model. Untuk mengetahui detail tentang karakter yang dihitung, lihat Karakter yang dikenakan biaya

Mengoptimalkan biaya dengan caching konteks Vertex AI

Dengan caching konteks, Anda dapat mengurangi biaya pemrosesan token input Gemini sebesar 75% dan latensi pembuatan konten dengan meng-cache bagian konteks dari teks atau media input Anda ke model Gemini. Jumlah waktu penyimpanan data dalam cache, yang dapat dikontrol oleh pengguna, menentukan biaya "Context Cache Storage". Saat membuat konteks yang di-cache, pengguna akan dikenai biaya token input standar. Penemuan cache pada data input dikenai tarif yang lebih rendah, "Input yang Di-cache", bukan biaya input normal. Ukuran data untuk penyimpanan dan input dihitung dengan cara yang sama seperti harga input Gemini.

Model Gemini 2.5

Model Fitur Jenis Harga (/1 juta token)
<= 200 ribu token input
Harga (/1 juta token)
> 200 ribu token input
Gemini 2.5 Pro Input yang Diketik Input (teks, gambar, video, audio) $0,31 (/1 jt token) $0,625 (/1 juta token)
Output T/A T/A
Penyimpanan Cache Konteks Input (teks, gambar, video, audio) $4,5 (/M Tok/jam) $4,5 (/M Tok/jam)
Flash Gemini 2.5 Input yang Diketik Input (teks, gambar, video, audio) $0,0375 (/1 juta token) $0,0375 (/1 juta token)
Output T/A T/A
Penyimpanan Cache Konteks Input (teks, gambar, video, audio) $1 (/juta Tok/jam) $1 (/juta Tok/jam)

Model Gemini 2.0

Harga berbasis token


Model

Jenis
Penyimpanan
(M tok-hour)
Harga




Gemini 2.0 Flash
1 juta token Input $1,00 $0,0375
1 juta token input audio $1,00 $0,25
1 juta token teks output NA NA


Gemini 2.0 Flash-Lite
1 juta token input $1,00 $0,01875
1 juta token Input audio $1,00 $0,01875
1 juta token teks output NA NA

Harga berdasarkan modalitas

Harga modalitas di bawah ini didasarkan pada kasus penggunaan rata-rata dan hanya untuk referensi. Penagihan yang sebenarnya hanya akan didasarkan pada token:

  • 4 karakter menghasilkan sekitar 1 token teks termasuk spasi putih.
  • Untuk gambar 1024x1024, token yang digunakan adalah 1.290. Jumlah token per image bervariasi berdasarkan resolusi gambar. Untuk mengetahui informasi selengkapnya tentang cara menghitung token, Anda dapat merujuk ke dokumentasi kami.
  • Input video menghabiskan 258 token per detik pada kecepatan sampel satu frame per detik. Tagihan video dengan audio untuk token video dan token audio.
  • Input audio menghabiskan 25 token per detik tanpa stempel waktu.

Model

Jenis
Penyimpanan
(Jam durasi)

Harga




Gemini 2.0 Flash
Input teks ($/M karakter) $0,25 $0,009375
Gambar input ($/gambar) $0,00129 $0,000048375
Input video ($/dtk) $0,000258 $0,000009675
Input audio ($/dtk) $0,000025 $0,00000625
Teks output ($/M karakter) NA NA




Gemini 2.0 Flash-Lite
Input teks ($/M karakter) $0,25 $0,0046875
Gambar input ($/gambar) $0,00129 $0,0000241875
Input video ($/dtk) $0,000258 $0,000009675
Input audio ($/dtk) $0,000258 $0,0000048375
Teks output ($/M karakter) NA NA


Grounding dengan Google Penelusuran
Gemini 2.0 Flash mencakup hingga 1.500 permintaan berbasis lokasi per hari tanpa biaya tambahan. Permintaan yang dilandasan
yang melebihi 1.500 per hari dikenai biaya $35 per 1.000 permintaan (hingga 1 juta permintaan per hari).

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.

Web Grounding untuk perusahaan
$45 per 1.000 permintaan (hingga 1 juta permintaan per hari) mulai 5 Mei 2025.

Harap hubungi tim akun Anda jika Anda memerlukan lebih dari 1 juta permintaan per hari.

* Harga dicantumkan dalam Dolar AS (USD). Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda di SKU Cloud Platform.
* PDF ditagih sebagai input gambar, dengan satu halaman PDF setara dengan satu gambar.
* Endpoint model yang telah disesuaikan memiliki harga prediksi yang sama dengan model dasar.
* Pemastian dengan Google Penelusuran hanya ditagih untuk permintaan yang menampilkan hasil yang berisi setidaknya satu URL dukungan pemastian dari web. Biaya penggunaan model Gemini standar juga berlaku.

Throughput yang Disediakan

Throughput yang disediakan memastikan throughput untuk kebutuhan AI generatif Anda dan ditransaksikan melalui unit skala AI generatif, atau GSU. Pelajari lebih lanjut throughput yang disediakan setiap GSU di sini dan gunakan estimator online kami di sini.

Durasi Harga per GSU Per
Komitmen 1 minggu* Rp1.200 Minggu
Komitmen 1 bulan $2.700 Bulan
Komitmen 3 bulan $2.400 Bulan
Komitmen 1 tahun $2.000 Bulan

*Catatan bahwa komit 1 minggu adalah penawaran pratinjau pribadi berbayar

Contoh penghitungan biaya

Pengguna harus memastikan bahwa mereka dapat mendukung 10 kueri per detik (QPS) kueri dengan input 1.000 token teks dan 500 token audio serta menerima output 300 token teks menggunakan gemini-2.0-flash.

Dengan menggunakan tabel throughput dan burndown rate, kita tahu bahwa burndown rate token teks input untuk gemini-2.0-flash adalah 1 token, burndown rate token audio input adalah 7 token, dan burndown rate token teks output adalah 4 token.

Total token input pengguna adalah 1.000* (1 token per token input teks) + 500* (7 token per token input audio) = 4.500 token input yang disesuaikan dengan burndown. Total token output pengguna adalah 300* (4 token per token teks output) = 1.200 token output yang disesuaikan dengan burndown. Dengan menjumlahkannya, kita mendapatkan 4.500 token input yang disesuaikan dengan burndown + 1.200 token output yang disesuaikan dengan burndown = total 5.700 token per kueri.

Dengan mengalikan total token per kueri dengan QPS, kita mendapatkan total token per kueri sebesar 5.700 * 10 QPS = 57.000 total token per detik.

Dengan membaginya dengan total throughput per detik per GSU,kita mendapatkan total token per detik sebesar 57.000 ÷ 3.360 throughput per detik per GSU = 16,96 GSU. Kenaikan pembelian GSU minimum untuk model ini adalah 1, sehingga pengguna memerlukan 17 GSU.

Jika pengguna ingin mempertahankan throughput ini selama 1 minggu, biayanya adalah $1.200 * 17 GSU = $20.400 per minggu. Jika mereka ingin mempertahankan throughput ini selama 1 bulan, biayanya adalah $2.700 * 17 GSU = $45.900 per bulan. Jika mereka ingin mempertahankan throughput ini selama 3 bulan, biayanya adalah $2.400 * 17 GSU = $40.800 per bulan. Dan akhirnya, jika mereka ingin mempertahankan throughput ini selama 1 tahun, biayanya adalah $2.000 * 17 GSU = $34.000 per bulan.

Bandingkan harga untuk model partner di Vertex AI

Model partner adalah daftar model AI generatif pilihan yang dikembangkan oleh partner Google. Model partner ditawarkan sebagai API terkelola. Untuk mengetahui informasi selengkapnya, lihat Ringkasan model partner. Bagian berikut mencantumkan detail harga untuk model partner Google.

Model AI21 Lab

Model Harga
Jamba 1,5 Besar Input: $2 / juta token
Output: $8 / juta token
Jamba 1.5 Mini Input: $0,20 / juta token
Output: $0,40 / juta token

Model Claude dari Anthropic

Model Harga
Claude 3.7 Sonnet Input: $3 / juta token
Output: $15 / juta token

Input Batch: $1,50 / juta token
Output Batch: $7,50 / juta token

Penulisan Cache: $3,75 / juta token
Hit Cache: $0,30 / juta token

Penulisan Cache Batch: $1,875 / juta token
Hit Cache Batch: $0,15 / juta token
Claude 3.5 Haiku Input: $0,80 / juta token
Output: $4 / juta token

Input Batch: $0,40 / juta token
Output Batch: $2 / juta token

Penulisan Cache: $1 / juta token
Penemuan Cache: $0,08 / juta token

Penulisan Cache Batch: $0,50 / juta token
Penemuan Cache Batch: $0,04 / juta token
Claude 3.5 Sonnet v2 Input: $3 / juta token
Output: $15 / juta token

Input Batch: $1,50 / juta token
Output Batch: $7,50 / juta token

Penulisan Cache: $3,75 / juta token
Hit Cache: $0,30 / juta token

Penulisan Cache Batch: $1,875 / juta token
Hit Cache Batch: $0,15 / juta token
Claude 3.5 Sonnet Input: $3 / juta token
Output: $15 / juta token

Penulisan Cache: $3,75 / juta token
Hit Cache: $0,30 / juta token
Claude 3 Haiku Input: $0,25 / juta token
Output: $1,25 / juta token

Penulisan Cache: $0,30 / juta token
Hit Cache: $0,03 / juta token
Claude 3 Sonnet (deprecated) Input: $3 / juta token
Output: $15 / juta token
Claude 3 Opus Input: $15 / juta token
Output: $75 / juta token

Penulisan Cache: $18,75 / juta token
Hit Cache: $1,50 / juta token

Model Llama dari Meta

Model Harga
Llama 3.1 405B Input: $5,00 / juta token
Output: $16,00 / juta token
Llama 3.3 70B * Input: $0,72 / juta token
Output: $0,72 / juta token
Scout Llama 4 * Input: $0,25 / juta token
Output: $0,70 / juta token
Llama 4 Mavi * Input: $0,35 / juta token
Output: $1,15 / juta token
  • Tersedia tanpa biaya hingga 1 Mei 2025.

Model Mistral AI

Model Harga
Mistral Kecil 3.1 (25.03) Input: $0,10 / juta token
Output: $0,30 / juta token
Mistral Besar (24.11) Input: $2,00 / juta token
Output: $6,00 / juta token
Mistral Nemo Input: $0,15 / juta token
Output: $0,15 / juta token
Codestral (25.01) Input: $0,30 / juta token
Output: $0,90 / juta token

Meminta penawaran harga khusus

Dengan model harga bayar sesuai penggunaan Google Cloud, Anda hanya membayar untuk layanan yang Anda gunakan. Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.
Hubungi bagian penjualan