Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Model Llama

Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:

Untuk Llama 4 Maverick 17B-128E, gunakan llama-4-maverick-17b-128e-instruct-maas
Untuk Llama 4 Scout 17B-16E, gunakan llama-4-scout-17b-16e-instruct-maas
Untuk Llama 3.3 70B, gunakan llama-3.3-70b-instruct-maas
Untuk Llama 3.2 90B, gunakan llama-3.2-90b-vision-instruct-maas
Untuk Llama 3.1 405B, gunakan llama-3.1-405b-instruct-maas
Untuk Llama 3.1 70B, gunakan llama-3.1-70b-instruct-maas
Untuk Llama 3.1 8B, gunakan llama-3.1-8b-instruct-maas

Sebelum memulai

Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:

Melakukan panggilan streaming ke model Llama

Contoh berikut melakukan panggilan streaming ke model Llama.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model Llama.
MODEL: Nama model yang ingin Anda gunakan.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Melakukan panggilan unary ke model Llama

Contoh berikut membuat panggilan unary ke model Llama.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model Llama.
MODEL: Nama model yang ingin Anda gunakan.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

Respons yang ditandai

Secara default, Llama Guard 3 8B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.3 dan Llama 3.1. Secara default, kemampuan penglihatan Llama Guard 3 11B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.2. Llama Guard membantu mengamankan respons dengan memeriksa input dan output. Jika Llama Guard menentukan bahwa respons tidak aman, respons tersebut akan ditandai.

Jika Anda ingin menonaktifkan Llama Guard, ubah setelan keamanan model. Untuk mengetahui informasi selengkapnya, lihat kolom model_safety_settings dalam contoh streaming atau unary.

Menggunakan Vertex AI Studio

Untuk model Llama, Anda dapat menggunakan Vertex AI Studio untuk membuat prototipe dan menguji model AI generatif dengan cepat di konsol Google Cloud . Sebagai contoh, Anda dapat menggunakan Vertex AI Studio untuk membandingkan respons model Llama dengan model lain yang didukung seperti Gemini dari Google.

Untuk mengetahui informasi selengkapnya, lihat Panduan memulai: Mengirimkan perintah teks ke Gemini menggunakan Vertex AI Studio.

Ketersediaan wilayah dan kuota model Llama

Untuk model Llama, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).

Model	Wilayah	Kuota	Panjang konteks
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`	QPM: 60	524.288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`	QPM: 60	1.310.720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 30	128.000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30	128.000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60	128.000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60	128.000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60	128.000

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.

Model Llama Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Melakukan panggilan streaming ke model Llama

REST

curl

PowerShell

Respons

Melakukan panggilan unary ke model Llama

REST

curl

PowerShell

Respons

Respons yang ditandai

Menggunakan Vertex AI Studio

Ketersediaan wilayah dan kuota model Llama

Model Llama