Model Llama

Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:

  • Untuk Llama 4 Maverick 17B-128E, gunakan llama-4-maverick-17b-128e-instruct-maas
  • Untuk Llama 4 Scout 17B-16E, gunakan llama-4-scout-17b-16e-instruct-maas
  • Untuk Llama 3.3 70B, gunakan llama-3.3-70b-instruct-maas
  • Untuk Llama 3.2 90B, gunakan llama-3.2-90b-vision-instruct-maas
  • Untuk Llama 3.1 405B, gunakan llama-3.1-405b-instruct-maas
  • Untuk Llama 3.1 70B, gunakan llama-3.1-70b-instruct-maas
  • Untuk Llama 3.1 8B, gunakan llama-3.1-8b-instruct-maas

Sebelum memulai

Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
  9. Melakukan panggilan streaming ke model Llama

    Contoh berikut melakukan panggilan streaming ke model Llama.

    REST

    Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model Llama.
    • MODEL: Nama model yang ingin Anda gunakan.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
    • ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Isi JSON permintaan:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": true,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Melakukan panggilan unary ke model Llama

    Contoh berikut membuat panggilan unary ke model Llama.

    REST

    Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model Llama.
    • MODEL: Nama model yang ingin Anda gunakan.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
    • ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah Llama Guard diaktifkan pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Isi JSON permintaan:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": false,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Respons yang ditandai

    Secara default, Llama Guard 3 8B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.3 dan Llama 3.1. Secara default, kemampuan penglihatan Llama Guard 3 11B diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.2. Llama Guard membantu mengamankan respons dengan memeriksa input dan output. Jika Llama Guard menentukan bahwa respons tidak aman, respons tersebut akan ditandai.

    Jika Anda ingin menonaktifkan Llama Guard, ubah setelan keamanan model. Untuk mengetahui informasi selengkapnya, lihat kolom model_safety_settings dalam contoh streaming atau unary.

    Menggunakan Vertex AI Studio

    Untuk model Llama, Anda dapat menggunakan Vertex AI Studio untuk membuat prototipe dan menguji model AI generatif dengan cepat di konsol Google Cloud . Sebagai contoh, Anda dapat menggunakan Vertex AI Studio untuk membandingkan respons model Llama dengan model lain yang didukung seperti Gemini dari Google.

    Untuk mengetahui informasi selengkapnya, lihat Panduan memulai: Mengirimkan perintah teks ke Gemini menggunakan Vertex AI Studio.

    Ketersediaan wilayah dan kuota model Llama

    Untuk model Llama, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).

    Model Wilayah Kuota Panjang konteks
    Llama 4 Maverick 17B-128E
    us-east5
    • QPM: 60
    524.288
    Llama 4 Scout 17B-16E
    us-east5
    • QPM: 60
    1.310.720
    Llama 3.3 70B
    us-central1
    • QPM: 30
    128.000
    Llama 3.2 90B
    us-central1
    • QPM: 30
    128.000
    Llama 3.1 405B
    us-central1
    • QPM: 60
    128.000
    Llama 3.1 70B
    us-central1
    • QPM: 60
    128.000
    Llama 3.1 8B
    us-central1
    • QPM: 60
    128.000

    Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.