Model Llama di Vertex AI menawarkan model terkelola sepenuhnya dan serverless sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Model Llama yang tersedia
Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden.
Model yang berada dalam Pratinjau juga memiliki opsi deployment mandiri. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama deployment mandiri.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E adalah model Llama 4 terbesar dan tercanggih yang menawarkan kemampuan coding, penalaran, dan gambar. Model ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan 17 miliar parameter aktif dari total 400 miliar parameter dan 128 pakar. Llama 4 Maverick 17B-128E menggunakan lapisan MoE dan padat yang bergantian, dengan setiap token mengaktifkan pakar bersama dan salah satu dari 128 pakar yang dirutekan. Model ini telah dilatih sebelumnya dalam 200 bahasa dan dioptimalkan untuk interaksi chat berkualitas tinggi melalui pipeline pasca-pelatihan yang ditingkatkan.
Llama 4 Maverick 17B-128E bersifat multimodal dan cocok untuk pemberian teks gambar lanjutan, analisis, pemahaman gambar yang akurat, pertanyaan dan jawaban visual, pembuatan teks kreatif, asisten AI tujuan umum, dan chatbot canggih yang memerlukan kecerdasan dan pemahaman gambar tingkat atas.
Pertimbangan
- Anda dapat menyertakan maksimal tiga gambar per permintaan.
- Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim perintah dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, Llama Guard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
- Prediksi batch tidak didukung.
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E memberikan hasil canggih untuk kelas ukurannya yang memiliki performa lebih baik daripada generasi Llama sebelumnya dan model terbuka serta eksklusif lainnya pada beberapa benchmark. Model ini menampilkan arsitektur MoE dengan 17 miliar parameter aktif dari total 109 miliar parameter dan 16 pakar.
Llama 4 Scout 17B-16E cocok untuk tugas pengambilan dalam konteks yang panjang dan tugas yang memerlukan penalaran atas informasi dalam jumlah besar, seperti merumuskan beberapa dokumen besar, menganalisis log interaksi pengguna yang luas untuk personalisasi, dan penalaran di seluruh codebase besar.
Pertimbangan
- Anda dapat menyertakan maksimal tiga gambar per permintaan.
- Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim perintah dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, Llama Guard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
- Prediksi batch tidak didukung.
Llama 3.3
Llama 3.3 adalah model yang disesuaikan dengan petunjuk 70B khusus teks yang memberikan performa yang lebih baik dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks.
Buka kartu model Llama 3.3 70B
Selama periode Pratinjau, Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.
Llama 3.2
Llama 3.2 memungkinkan developer mem-build dan men-deploy model AI generatif terbaru dan aplikasi yang menggunakan kemampuan Llama terbaru, seperti penalaran gambar. Llama 3.2 juga didesain agar lebih mudah diakses untuk aplikasi di perangkat.
Buka kartu model Llama 3.2 90B
Tidak ada biaya yang dikenakan selama periode Pratinjau. Jika Anda memerlukan layanan siap produksi, gunakan model Llama yang dihosting sendiri.
Pertimbangan
Saat menggunakan llama-3.2-90b-vision-instruct-maas
, tidak ada batasan saat Anda mengirim perintah
hanya teks. Namun, jika Anda menyertakan gambar dalam perintah, gambar
harus berada di awal perintah, dan Anda hanya dapat menyertakan satu gambar. Anda
tidak dapat, misalnya, menyertakan beberapa teks, lalu gambar.
Llama 3.1
Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer yang dioptimalkan. Versi yang disesuaikan menggunakan penyesuaian yang diawasi (SFT) dan reinforcement learning dengan masukan manusia (RLHF) agar selaras dengan preferensi manusia untuk membantu dan keamanan.
Llama 3.1 405B Tersedia Umum. Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.
Model Llama 3.1 lainnya masih dalam Pratinjau. Tidak ada biaya untuk model Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.
Langkah berikutnya
Pelajari cara menggunakan model Llama.