Model Llama di Vertex AI menawarkan model sebagai API yang serverless dan terkelola sepenuhnya. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Model Llama yang tersedia
Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu modelnya di Model Garden.
Model yang berada dalam Pratinjau juga memiliki opsi deployment mandiri. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang di-deploy sendiri.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E adalah model Llama 4 terbesar dan tercanggih yang menawarkan kemampuan coding, logika, dan gambar. Model ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan 17 miliar parameter aktif dari total 400 miliar parameter dan 128 pakar. Llama 4 Maverick 17B-128E menggunakan lapisan MoE dan padat yang bergantian, di mana setiap token mengaktifkan pakar bersama dan salah satu dari 128 pakar yang dirutekan. Model ini telah dilatih awal dengan 200 bahasa dan dioptimalkan untuk interaksi chat berkualitas tinggi melalui pipeline pasca-pelatihan yang disempurnakan.
Llama 4 Maverick 17B-128E bersifat multimodal dan cocok untuk pembuatan teks gambar tingkat lanjut, analisis, pemahaman gambar yang presisi, pertanyaan dan jawaban visual, pembuatan teks kreatif, asisten AI serbaguna, dan chatbot canggih yang memerlukan kecerdasan dan pemahaman gambar tingkat atas.
Pertimbangan
- Anda dapat menyertakan maksimal tiga gambar per permintaan.
- Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
- Prediksi batch tidak didukung.
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E memberikan hasil canggih untuk kelas ukurannya yang mengungguli generasi Llama sebelumnya dan model open source serta eksklusif lainnya pada beberapa tolok ukur. Model ini memiliki arsitektur MoE dengan 17 miliar parameter aktif dari total 109 miliar parameter dan 16 pakar.
Llama 4 Scout 17B-16E cocok untuk tugas pengambilan dalam konteks panjang dan tugas yang memerlukan penalaran atas sejumlah besar informasi, seperti meringkas beberapa dokumen besar, menganalisis log interaksi pengguna yang ekstensif untuk personalisasi, dan melakukan penalaran di seluruh codebase besar.
Pertimbangan
- Anda dapat menyertakan maksimal tiga gambar per permintaan.
- Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
- Prediksi batch tidak didukung.
Llama 3.3
Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks.
Buka kartu model Llama 3.3 70B
Selama periode Pratinjau, Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.
Llama 3.2
Llama 3.2 memungkinkan developer membuat dan men-deploy model serta aplikasi AI generatif terbaru yang menggunakan kemampuan Llama terbaru, seperti penalaran gambar. Llama 3.2 juga didesain agar lebih mudah diakses untuk aplikasi di perangkat.
Buka kartu model Llama 3.2 90B
Tidak ada biaya selama periode Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.
Pertimbangan
Saat menggunakan llama-3.2-90b-vision-instruct-maas
, tidak ada batasan saat Anda mengirimkan perintah hanya teks. Namun, jika Anda menyertakan gambar dalam perintah, gambar
harus berada di awal perintah, dan Anda hanya dapat menyertakan satu gambar. Misalnya, Anda tidak dapat menyertakan beberapa teks, lalu gambar.
Llama 3.1
Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer yang dioptimalkan. Versi yang disesuaikan menggunakan fine-tuning yang diawasi (SFT) dan reinforcement learning with human feedback (RLHF) agar sesuai dengan preferensi manusia untuk kegunaan dan keamanan.
Llama 3.1 405B Tersedia Umum. Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.
Model Llama 3.1 lainnya dalam Pratinjau. Tidak ada biaya untuk model Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.
Langkah berikutnya
Pelajari cara menggunakan model Llama.