Model Google

Vertex AI memiliki daftar model dasar yang terus bertambah, yang dapat Anda uji, deploy, dan sesuaikan untuk digunakan dalam aplikasi berbasis AI. Model dasar disesuaikan untuk kasus penggunaan tertentu dan ditawarkan dengan berbagai titik harga. Halaman ini merangkum model yang tersedia di berbagai API dan memberikan panduan tentang model yang akan dipilih berdasarkan kasus penggunaan.

Untuk mengetahui informasi selengkapnya tentang semua API dan model AI di Vertex AI, lihat Menjelajahi model AI di Model Garden.

Model Gemini

Tabel berikut merangkum model yang tersedia di Gemini API. Untuk informasi selengkapnya tentang detail API, lihat referensi Gemini API.

Untuk menjelajahi model di konsol Google Cloud, pilih kartu modelnya di Model Garden.

Model Input Output Kasus penggunaan Mencoba model
Gemini 2.0 Flash
gemini-2.0-flash-001
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF Teks, Audio (pratinjau pribadi), Gambar (pratinjau pribadi) Model andalan untuk semua tugas harian. Performa keseluruhan yang kuat dan mendukung Live API streaming real-time. Coba Gemini 2.0 Flash
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
Teks, Gambar, Video, Audio, PDF Teks Kualitas model terkuat, terutama untuk kode & pengetahuan dunia; konteks panjang 2 juta. Coba Gemini 2.0 Pro
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05
Teks, Gambar, Video, Audio, PDF Teks Penawaran hemat biaya kami untuk mendukung throughput tinggi. Coba Gemini 2.0 Flash-Lite
Flash Thinking Gemini 2.0
gemini-2.0-flash-thinking-exp-01-21
Teks, Gambar Teks Memberikan kemampuan penalaran yang lebih kuat dan menyertakan proses pemikiran dalam respons. Coba Gemini 2.0 Flash Thinking
Gemini 1.5 Flash
gemini-1.5-flash
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF Teks Memberikan kecepatan dan efisiensi untuk aplikasi berkualitas tinggi, bervolume besar, dan hemat biaya. Coba Gemini 1.5 Flash
Gemini 1.5 Pro
gemini-1.5-pro
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF Teks Mendukung perintah teks atau chat untuk respons teks atau kode.
Mendukung pemahaman konteks panjang hingga batas token input maksimum.
Coba Gemini 1.5 Pro
Gemini 1.0 Pro
gemini-1.0-pro
Teks Teks Model berperforma terbaik untuk berbagai tugas hanya teks. Coba Gemini 1.0 Pro
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
Teks, Gambar, Audio, Video, Video dengan Audio, PDF Teks Model pemahaman gambar dan video berperforma terbaik untuk menangani berbagai aplikasi. Coba Gemini 1.0 Pro Vision

Informasi berikut memberikan detail untuk setiap model Gemini.

Gemini 2.0 Flash

Generasi berikutnya dari model Gemini Flash kami. Gemini 2.0 Flash memberikan kecepatan yang lebih tinggi dibandingkan model 1.5 kami dan mendukung berbagai fitur yang diperluas seperti streaming dua arah dengan Multimodal Live API, pembuatan respons multimodal, dan penggunaan alat bawaan.

Kemampuan

Kemampuan Ketersediaan
Perujukan dengan Google Penelusuran
Eksekusi kode
Penyesuaian
Petunjuk sistem Lihat Menggunakan petunjuk sistem.
Pembuatan Terkontrol
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 1.048.576
Token output maks 8.192
Data pelatihan Hingga Juni 2024

Gemini 2.0 Pro

Gemini 2.0 Pro adalah model terkuat kami untuk coding dan pengetahuan dunia serta memiliki jendela konteks panjang 2 juta. Gemini 2.0 Pro tersedia sebagai model eksperimental di Vertex AI dan merupakan jalur upgrade untuk pengguna 1.5 Pro yang menginginkan kualitas yang lebih baik, atau yang sangat tertarik dengan konteks dan kode yang panjang.

Kemampuan

Kemampuan Ketersediaan
Perujukan dengan Google Penelusuran
Eksekusi kode
Penyesuaian
Petunjuk sistem Lihat Menggunakan petunjuk sistem.
Dukungan JSON
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 2.097.152
Token output maks 8.192
Data pelatihan Hingga Juni 2024

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite adalah model Flash tercepat dan paling hemat biaya. Ini adalah jalur upgrade untuk pengguna 1.5 Flash yang menginginkan kualitas yang lebih baik dengan harga dan kecepatan yang sama.

Kemampuan

Kemampuan Ketersediaan
Perujukan dengan Google Penelusuran
Eksekusi kode
Penyesuaian
Petunjuk sistem Lihat Menggunakan petunjuk sistem.
Dukungan JSON
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 1.048.576
Token output maks 8.192
Data pelatihan Hingga Juni 2024

Pemikiran Flash Gemini 2.0

Gemini 2.0 Flash Thinking adalah model komputasi waktu pengujian eksperimental yang dilatih untuk menghasilkan "proses berpikir" yang dilakukan model sebagai bagian dari responsnya. Akibatnya, Pemikiran Flash mampu memiliki kemampuan penalaran yang lebih kuat dalam responsnya daripada model Gemini 2.0 Flash dasar. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Pemikiran Cepat Gemini 2.0

Kemampuan

Kemampuan Ketersediaan
Grounding
Penyesuaian
Petunjuk sistem Lihat Menggunakan petunjuk sistem.
Dukungan JSON
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 1.048.576
Token output maks 65,536
Data pelatihan Hingga Mei 2024

Gemini 1.5 Flash

Model multimodal yang dirancang untuk aplikasi hemat biaya dan bervolume tinggi, serta memberikan kecepatan dan efisiensi untuk membuat aplikasi yang cepat dan berbiaya lebih rendah tanpa mengorbankan kualitas.

Kemampuan

Kemampuan Ketersediaan
Grounding Hanya input teks
Penyesuaian
Petunjuk sistem Lihat Menggunakan petunjuk sistem.
Pembuatan Terkontrol
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 1.048.576
Token output maks 8.192
Ukuran gambar mentah maksimum 20 MB
Ukuran gambar berenkode base64 maksimum 7 MB
Gambar maksimum per perintah 3.000
Durasi maksimal video 1 jam
Video maksimum per perintah 10
Durasi audio maks sekitar 8,4 jam
Audio maksimum per perintah 1
Ukuran PDF maksimum 30 MB
Data pelatihan Hingga Mei 2024

Gemini 1.5 Pro

Model multimodal yang mendukung penambahan file gambar, audio, video, dan PDF dalam perintah teks atau chat untuk menghasilkan respons teks atau kode. Model ini mendukung pemahaman konteks panjang hingga batas token input maksimum.

Kemampuan

Kemampuan Ketersediaan
Grounding Ya (khusus input teks)
Penyesuaian
Petunjuk sistem Ya. Lihat Menggunakan petunjuk sistem.
Dukungan JSON
Throughput yang Disediakan Ya. Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 2.097.152
Token output maks 8.192
Gambar maksimum per perintah 3.000
Durasi video maksimum (khusus frame) sekitar satu jam
Durasi video maksimum (frame dan audio) sekitar 45 menit
Video maksimum per perintah 10
Durasi audio maks sekitar 8,4 jam
Audio maksimum per perintah 1
Ukuran PDF maksimum 30 MB
Data pelatihan Hingga Mei 2024

Gemini 1.0 Pro

Model berperforma terbaik dengan fitur untuk berbagai tugas hanya teks. Model ini hanya mendukung teks sebagai input.

Kemampuan

Kemampuan Ketersediaan
Grounding Ya (khusus input teks)
Penyesuaian Ya. Penyesuaian yang diawasi didukung oleh gemini-1.0-pro-002.
Petunjuk sistem Ya. Didukung oleh gemini-1.0-pro-002. Lihat Menggunakan petunjuk sistem.
Dukungan JSON
Throughput yang Disediakan Ya. Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 32.760
Token output maks 8.192
Data pelatihan Hingga Februari 2023

Gemini 1.0 Pro Vision

Model pemahaman gambar dan video berperforma terbaik untuk menangani berbagai aplikasi. Gemini 1.0 Pro Vision mendukung teks, gambar, dan video sebagai input.

Kemampuan

Kemampuan Ketersediaan
Grounding
Penyesuaian
Petunjuk sistem
Dukungan JSON
Throughput yang Disediakan Ya. Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 16.384
Token output maks 2.048
Gambar maksimum per perintah 16
Durasi maksimal video 2 menit
Video maksimum per perintah 1
Data pelatihan Hingga Februari 2023

Gemini 1.0 Ultra

Model teks tercanggih Google, yang dioptimalkan untuk tugas rumit, termasuk petunjuk, kode, dan penalaran. Gemini 1.0 Ultra hanya mendukung teks sebagai input.

Kemampuan

Kemampuan Ketersediaan
Grounding
Penyesuaian
Petunjuk sistem
Dukungan JSON
Throughput yang Disediakan Ya. Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 8.192
Token output maks 2.048

Gemini 1.0 Ultra Vision

Model visi multimodal Google yang paling andal, dioptimalkan untuk mendukung input teks, gambar, dan video gabungan.

Kemampuan

Kemampuan Ketersediaan
Grounding
Penyesuaian
Petunjuk sistem
Dukungan JSON
Throughput yang Disediakan Lihat Model yang didukung.

Spesifikasi

Spesifikasi Nilai
Token input maks 8.192
Token output maks 2.048

Dukungan bahasa Gemini

  • Semua model Gemini dapat memahami dan merespons dalam bahasa berikut:

    Arab (ar), Bengali (bn), Bulgaria (bg), China aksara sederhana dan tradisional (zh), Kroasia (hr), Ceko (cs), Denmark (da), Belanda (nl), Inggris (en), Estonia (et), Finlandia (fi), Prancis (fr), Jerman (de), Yunani (el), Ibrani (iw), Hindi (hi), Hungaria (hu), Indonesia (id), Italia (it), Jepang (ja), Korea (ko), Latvia (lv), Lituania (lt), Norwegia (no), Polandia (pl), Portugis (pt), Rumania (ro), Rusia (ru), Serbia (sr), Slovakia (sk), Slovenia (sl), Spanyol (es), Swahili (sw), Swedia (sv), Thailand (th), Turkiye (tr), Ukraina (uk), Vietnam (vi)

  • Model Gemini 1.5 Pro dan Gemini 1.5 Flash dapat memahami dan merespons dalam bahasa tambahan berikut:

    Afrikaans (af), Amharik (am), Assam (as), Azerbaijan (az), Belarus (be), Bosnia (bs), Katalan (ca), Cebuano (ceb), Korsika (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persia (fa), Filipina (Tagalog) (fil), Frisia (fy), Irlandia (ga), Gaelik Skotlandia (gd), Galisia (gl), Gujarat (gu), Hausa (ha), Hawaii (haw), Hmong (hmn), Kreol Haiti (ht), Armenia (hy), Igbo (ig), Islandia (is), Jawa (jv), Georgia (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdi (ku), Kirgiz (ky), Latin (la), Luksemburg (lb), Laos (lo), Malagasy (mg), Maori (mi), Makedonia (mk), Malayalam (ml), Mongolia (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Melayu (ms), Malta (mt), Myanmar (Burma) (my), Nepal (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoa (sm), Shona (sn), Somalia (so), Albania (sq), Sesotho (st), Sunda (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Model Gemma

Tabel berikut merangkum model Gemma.

Model Input Output Kasus penggunaan Mencoba model
Gemma
Detail model
Teks Teks Model teks terbuka berukuran kecil dan ringan yang mendukung pembuatan, peringkasan, dan ekstraksi teks. Dapat di-deploy di lingkungan dengan resource terbatas. Coba Gemma
CodeGemma
Detail model
Teks, Kode, PDF Teks Kumpulan model kode terbuka yang ringan dan dibuat di atas Gemma. Paling cocok untuk pembuatan dan penyelesaian kode. Coba CodeGemma
PaliGemma
Detail model
Teks, Gambar Teks Model bahasa-visio (VLM) yang ringan. Paling cocok untuk tugas pemberian teks pada gambar serta tugas pertanyaan dan jawaban visual. Coba PaliGemma

Dukungan bahasa Gemma

Gemma hanya mendukung bahasa Inggris.

Model penyematan

Tabel berikut meringkas model yang tersedia di Embeddings API.

Nama model Deskripsi Spesifikasi Mencoba model
Embedding untuk teks
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Detail model
Menampilkan embedding untuk input teks bahasa Inggris.

Mendukung penyesuaian yang diawasi model Embedding untuk teks, hanya bahasa Inggris.
Input token maksimum: 3.072 (textembedding-gecko@001).
Lainnya: 2.048.

Dimensi penyematan: text-embedding-004: <=768.
Lainnya: 768.
Mencoba Embedding untuk teks
Embedding untuk teks multibahasa
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Detail model
Menampilkan embedding untuk input teks dari lebih dari 100 bahasa

Mendukung penyesuaian yang diawasi model text-multilingual-embedding-002.
Mendukung 100 bahasa.
Input token maksimum: 2.048.

Dimensi penyematan: text-multilingual-embedding-002: <=768.
Lainnya: 768.
Mencoba Penyematan untuk teks multibahasa
Embedding untuk multimodal
(multimodalembedding)
Detail model
Menampilkan embedding untuk input teks, gambar, dan video, untuk membandingkan konten di berbagai model.

Mengonversi teks, gambar, dan video menjadi ruang vektor yang sama. Video hanya mendukung 1.408 dimensi.
Khusus bahasa Inggris
Input token maksimum: 32.
Ukuran gambar maksimum: 20 MB.
Durasi video maks.: Dua menit.

Dimensi penyematan: 128, 256, 512, atau 1408 untuk input teks+gambar, 1408 untuk input video.
Mencoba Embedding untuk multimodal

Dukungan bahasa penyematan

Model penyematan multibahasa teks mendukung bahasa berikut:
Afrikaans, Albania, Amharik, Arab, Armenia, Azerbaijan, Basque, Belarusia, Bengali, Bulgaria, Burma, Katalan, Cebuano, Chichewa, Cina, Korsika, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Kreol Haiti, Hausa, Hawaii, Ibrani, Hindi, Hmong, Hungaria, Islandia, Igbo, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi, Kirgiz, Laos, Latin, Latvia, Lituania, Luksemburg, Makedonia, Malagasi, Melayu, Malayalam, Malta, Maori, Marathi, Mongolia, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Samoa, Gaelik Skotlandia, Serbia, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Sotho, Spanyol, Sunda, Swahili, Swedia, Tajik, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Uzbek, Vietnam, Welsh, Frisia Barat, Xhosa, Yiddish, Yoruba, Zulu.

Model Imagen

Tabel berikut merangkum model yang tersedia di Imagen API:

Model Input Output Kasus penggunaan Mencoba model
Imagen 3
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001)

Imagen 2
(imagegeneration@006, imagegeneration@005)

Imagen
(imagegeneration@002)
Detail model
Teks Gambar Model ini mendukung pembuatan dan pengeditan gambar untuk membuat gambar berkualitas tinggi dalam hitungan detik. Hal ini mencakup pembuatan gambar menggunakan zero-shot learning. Mencoba Imagen untuk pembuatan gambar
Imagen 3 (Pengeditan dan penyesuaian)
(imagen-3.0-capability-001)

Imagen 2 (Pengeditan)
(imagegeneration@006)

Imagen (Pengeditan)
imagegeneration@002)
Detail model
Teks dan gambar Gambar Model ini mendukung pengeditan gambar dan pembuatan gambar kustom (beberapa gambar) untuk membuat gambar berkualitas tinggi dalam hitungan detik.

Fitur pengeditan mendukung inpainting (penghapusan atau penyematan objek), outpainting, dan pengeditan gambar produk.

Penyesuaian mendukung pembelajaran beberapa tahap, sehingga Anda dapat memberikan gambar referensi untuk memandu pembuatan gambar output. Model ini mendukung jenis penyesuaian berikut: subjek (produk, orang, dan hewan peliharaan), gaya, penyesuaian terkontrol (coretan atau tepi canny), dan penyesuaian petunjuk (transfer gaya).
Coba Imagen untuk pengeditan dan penyesuaian

Dukungan bahasa Imagen 3

Imagen 3 mendukung bahasa berikut:
Inggris, China, Hindi, Jepang, Korea, Portugis, dan Spanyol.

Model penyelesaian kode

Tabel berikut meringkas model yang tersedia di Codey API:

Model Input Output Kasus penggunaan Mencoba model
Codey for Code Completion
(code-gecko)
Detail model
Kode dalam bahasa yang didukung Kode dalam bahasa yang didukung Model yang disesuaikan untuk menyarankan penyelesaian kode berdasarkan konteks dalam kode yang ditulis. Coba Codey untuk Penyelesaian Kode

Dukungan bahasa model penyelesaian kode

Model Penyelesaian kode mendukung bahasa Inggris.

Model MedLM

Tabel berikut meringkas model yang tersedia di MedLM API:

Nama model Deskripsi Spesifikasi Mencoba model
MedLM-medium (medlm-medium)
Detail model
Rangkaian model dan API yang disesuaikan secara medis dan sesuai dengan HIPAA yang didukung oleh Google Research.

Model ini membantu praktisi layanan kesehatan dengan tugas pertanyaan dan jawaban medis, serta tugas ringkasan untuk dokumen layanan kesehatan dan medis. Memberikan throughput yang lebih baik dan menyertakan data yang lebih baru daripada model medlm-large.
Token maksimum (input + output): 32.768.
Token output maksimum: 8.192.
Coba MedLM-medium
MedLM-large (medlm-large)
Detail model
Rangkaian model dan API yang disesuaikan secara medis dan sesuai dengan HIPAA yang didukung oleh Google Research.

Model ini membantu praktisi layanan kesehatan dengan tugas pertanyaan dan jawaban medis, serta tugas ringkasan untuk dokumen layanan kesehatan dan medis.
Token input maksimum: 8.192.
Token output maksimum: 1.024.
Coba MedLM-large

Dukungan Throughput yang Disediakan MedLM

MedLM-medium dan MedLM-large mendukung Provisioned Throughput. Lihat Model yang didukung.

Dukungan bahasa MedLM

Model MedLM mendukung bahasa Inggris.

Lokasi

Untuk mengetahui daftar lokasi tempat model ini tersedia, lihat Lokasi AI Generatif di Vertex AI.

Versi model

Untuk mempelajari versi model, lihat Versi model.

Mempelajari semua model di Model Garden

Model Garden adalah platform yang membantu Anda menemukan, menguji, menyesuaikan, dan men-deploy model & aset OSS tertentu serta eksklusif Google. Untuk mempelajari model dan API AI generatif yang tersedia di Vertex AI, buka Model Garden di Konsol Google Cloud.

Buka Model Garden

Untuk mempelajari lebih lanjut Model Garden, termasuk model dan kemampuan yang tersedia, lihat Mempelajari model AI di Model Garden.

Langkah berikutnya