Halaman ini diterjemahkan oleh Cloud Translation API.

Model Llama yang terkelola sepenuhnya

Model Llama di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan serverless. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Model Llama yang tersedia

Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden-nya.

Model yang berada dalam Pratinjau juga memiliki opsi deployment mandiri. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang di-deploy sendiri.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E adalah model Llama 4 terbesar dan tercanggih yang menawarkan kemampuan pengodean, penalaran, dan gambar. Model ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan 17 miliar parameter aktif dari total 400 miliar parameter dan 128 pakar. Llama 4 Maverick 17B-128E menggunakan lapisan MoE dan padat yang bergantian, di mana setiap token mengaktifkan pakar bersama dan salah satu dari 128 pakar yang dirutekan. Model ini telah dilatih awal dengan 200 bahasa dan dioptimalkan untuk interaksi chat berkualitas tinggi melalui pipeline pasca-pelatihan yang disempurnakan.

Llama 4 Maverick 17B-128E bersifat multimodal dan cocok untuk pembuatan teks gambar tingkat lanjut, analisis, pemahaman gambar yang presisi, pertanyaan dan jawaban visual, pembuatan teks kreatif, asisten AI serbaguna, dan chatbot canggih yang memerlukan kecerdasan dan pemahaman gambar tingkat atas.

Pertimbangan

Anda dapat menyertakan maksimal tiga gambar per permintaan.
Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E memberikan hasil terbaik untuk kelas ukurannya yang mengungguli generasi Llama sebelumnya dan model terbuka serta berpemilik lainnya pada beberapa tolok ukur. Model ini menampilkan arsitektur MoE dengan 17 miliar parameter aktif dari total 109 miliar parameter dan 16 pakar.

Llama 4 Scout 17B-16E cocok untuk tugas pengambilan dalam konteks panjang dan tugas yang memerlukan penalaran atas sejumlah besar informasi, seperti meringkas beberapa dokumen besar, menganalisis log interaksi pengguna yang ekstensif untuk personalisasi, dan melakukan penalaran di seluruh codebase besar.

Buka kartu model Llama 4

Pertimbangan

Anda dapat menyertakan maksimal tiga gambar per permintaan.
Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 3.3

Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks.

Buka kartu model Llama 3.3 70B

Selama periode Pratinjau, Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.

Llama 3.2

Llama 3.2 memungkinkan developer membuat dan men-deploy model dan aplikasi AI generatif terbaru yang menggunakan kemampuan Llama terbaru, seperti penalaran gambar. Llama 3.2 juga didesain agar lebih mudah diakses untuk aplikasi di perangkat.

Buka kartu model Llama 3.2 90B

Tidak ada biaya selama periode Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.

Pertimbangan

Saat menggunakan llama-3.2-90b-vision-instruct-maas, tidak ada batasan saat Anda mengirimkan perintah hanya teks. Namun, jika Anda menyertakan gambar dalam perintah, gambar harus berada di awal perintah, dan Anda hanya dapat menyertakan satu gambar. Misalnya, Anda tidak dapat menyertakan beberapa teks, lalu gambar.

Llama 3.1

Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer yang dioptimalkan. Versi yang disesuaikan menggunakan fine-tuning yang diawasi (SFT) dan reinforcement learning with human feedback (RLHF) agar sesuai dengan preferensi manusia untuk kegunaan dan keamanan.

Llama 3.1 405B Tersedia Umum. Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.

Model Llama 3.1 lainnya dalam Pratinjau. Tidak ada biaya untuk model Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.

Buka kartu model Llama 3.1

Langkah berikutnya

Pelajari cara menggunakan model Llama.

Model Llama yang terkelola sepenuhnya Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Model Llama yang tersedia

Llama 4 Maverick 17B-128E

Pertimbangan

Llama 4 Scout 17B-16E

Pertimbangan

Llama 3.3

Llama 3.2

Pertimbangan

Llama 3.1

Langkah berikutnya

Model Llama yang terkelola sepenuhnya