Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk Llama 4 Maverick 17B-128E, gunakan
llama-4-maverick-17b-128e-instruct-maas
- Untuk Llama 4 Scout 17B-16E, gunakan
llama-4-scout-17b-16e-instruct-maas
- Untuk Llama 3.3 70B, gunakan
llama-3.3-70b-instruct-maas
- Untuk Llama 3.2 90B, gunakan
llama-3.2-90b-vision-instruct-maas
- Untuk Llama 3.1 405B, gunakan
llama-3.1-405b-instruct-maas
- Untuk Llama 3.1 70B, gunakan
llama-3.1-70b-instruct-maas
- Untuk Llama 3.1 8B, gunakan
llama-3.1-8b-instruct-maas
Sebelum memulai
Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan untuk menggunakan
Vertex AI. Jika sudah memiliki project dengan
Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat
project baru.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
- LOCATION: Region yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.
- LOCATION: Region yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.
- QPM: 60
- QPM: 60
- QPM: 30
- QPM: 30
- QPM: 60
- QPM: 60
- QPM: 60
Melakukan panggilan streaming ke model Llama
Contoh berikut melakukan panggilan streaming ke model Llama.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan unary ke model Llama
Contoh berikut membuat panggilan unary ke model Llama.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Respons yang ditandai
Secara default, Llama Guard 3 8B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.3 dan Llama 3.1. Secara default, kemampuan penglihatan Llama Guard 3 11B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.2. Llama Guard membantu mengamankan respons dengan memeriksa input dan output. Jika Llama Guard menentukan bahwa respons tidak aman, respons tersebut akan ditandai.
Jika Anda ingin menonaktifkan Llama Guard, ubah setelan keamanan model. Untuk mengetahui informasi
selengkapnya, lihat kolom model_safety_settings
dalam contoh
streaming atau unary.
Menggunakan Vertex AI Studio
Untuk model Llama, Anda dapat menggunakan Vertex AI Studio untuk membuat prototipe dan menguji model AI generatif dengan cepat di konsol Google Cloud . Sebagai contoh, Anda dapat menggunakan Vertex AI Studio untuk membandingkan respons model Llama dengan model lain yang didukung seperti Gemini dari Google.
Untuk mengetahui informasi selengkapnya, lihat Panduan memulai: Mengirimkan perintah teks ke Gemini menggunakan Vertex AI Studio.
Ketersediaan wilayah dan kuota model Llama
Untuk model Llama, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).
Model | Wilayah | Kuota | Panjang konteks |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524.288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1.310.720 | |
Llama 3.3 70B | |||
us-central1 |
|
128.000 | |
Llama 3.2 90B | |||
us-central1 |
|
128.000 | |
Llama 3.1 405B | |||
us-central1 |
|
128.000 | |
Llama 3.1 70B | |||
us-central1 |
|
128.000 | |
Llama 3.1 8B | |||
us-central1 |
|
128.000 |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.