Llama 模型

您可以使用 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:

  • 如要使用 Llama 4 Maverick 17B-128E,請使用 llama-4-maverick-17b-128e-instruct-maas
  • 如要使用 Llama 4 Scout 17B-16E,請使用 llama-4-scout-17b-16e-instruct-maas
  • 如要使用 Llama 3.3 70B,請使用 llama-3.3-70b-instruct-maas
  • 如要使用 Llama 3.2 90B,請使用 llama-3.2-90b-vision-instruct-maas
  • 如要使用 Llama 3.1 405B,請使用 llama-3.1-405b-instruct-maas
  • 如要使用 Llama 3.1 70B,請使用 llama-3.1-70b-instruct-maas
  • 如要使用 Llama 3.1 8B,請使用 llama-3.1-8b-instruct-maas

事前準備

如要在 Vertex AI 中使用 Llama 模型,請執行下列步驟。如要使用 Vertex AI,必須啟用 Vertex AI API (aiplatform.googleapis.com)。如果您已有啟用 Vertex AI API 的專案,可以改用該專案,不必建立新專案。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. 前往下列任一 Model Garden 模型資訊卡,然後按一下「啟用」
  9. 對 Llama 模型發出串流呼叫

    下列範例會對 Llama 模型發出串流呼叫。

    REST

    設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

    使用任何要求資料之前,請先替換以下項目:

    • LOCATION:支援 Llama 模型的區域。
    • MODEL:您要使用的模型名稱
    • ROLE:與訊息相關聯的角色。您可以指定 userassistant。 第一則訊息必須使用 user 角色。模型會交替進行 userassistant 輪次。如果最後一則訊息使用 assistant 角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
    • CONTENTuserassistant 訊息的內容,例如文字。
    • MAX_OUTPUT_TOKENS: 回覆內可以生成的權杖數量上限。一個詞元約為四個字元。100 個符記約等於 60 到 80 個字。

      如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。

    • STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應,設為 false 則可一次傳回回應。
    • ENABLE_LLAMA_GUARD: 布林值,指定是否要在輸入和輸出內容中啟用 Llama Guard。Llama Guard 預設為啟用狀態,如果判斷回覆內容不安全,就會標示出來。

    HTTP 方法和網址:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    JSON 要求主體:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": true,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    如要傳送要求,請選擇以下其中一個選項:

    curl

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    您應該會收到類似如下的 JSON 回應。

    對 Llama 模型發出一元呼叫

    以下範例會對 Llama 模型進行一元呼叫。

    REST

    設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

    使用任何要求資料之前,請先替換以下項目:

    • LOCATION:支援 Llama 模型的區域。
    • MODEL:您要使用的模型名稱
    • ROLE:與訊息相關聯的角色。您可以指定 userassistant。 第一則訊息必須使用 user 角色。模型會交替進行 userassistant 輪次。如果最後一則訊息使用 assistant 角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
    • CONTENTuserassistant 訊息的內容,例如文字。
    • MAX_OUTPUT_TOKENS: 回覆內可以生成的權杖數量上限。一個詞元約為四個字元。100 個符記約等於 60 到 80 個字。

      如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。

    • STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應,設為 false 則可一次傳回回應。
    • ENABLE_LLAMA_GUARD: 布林值,指定是否要在輸入和輸出內容中啟用 Llama Guard。Llama Guard 預設為啟用狀態,如果判斷回覆內容不安全,就會標示出來。

    HTTP 方法和網址:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    JSON 要求主體:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": false,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    如要傳送要求,請選擇以下其中一個選項:

    curl

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    您應該會收到類似如下的 JSON 回應。

    已標記的回覆

    根據預設,使用 Llama 3.3 和 Llama 3.1 模型進行的所有預測都會啟用 Llama Guard 3 8B。根據預設,使用 Llama 3.2 模型進行的所有預測都會啟用 Llama Guard 3 11B 視覺功能。Llama Guard 會檢查輸入和輸出內容,協助保護回覆內容。如果 Llama Guard 判斷回覆內容不安全,就會標記該回覆。

    如要停用 Llama Guard,請修改模型安全設定。詳情請參閱串流一元範例中的 model_safety_settings 欄位。

    使用 Vertex AI Studio

    如要使用 Llama 模型,您可以在 Google Cloud 控制台使用 Vertex AI Studio,快速設計生成式 AI 模型原型並進行測試。舉例來說,您可以使用 Vertex AI Studio 比較 Llama 模型回覆與其他支援的模型,例如 Google 的 Gemini。

    詳情請參閱「快速入門:使用 Vertex AI Studio 向 Gemini 傳送文字提示」。

    Llama 模型支援的區域和配額

    如果是 Llama 模型,配額適用於模型可用的每個區域。配額以每分鐘查詢次數 (QPM) 為單位。

    模型 區域 配額 脈絡長度
    Llama 4 Maverick 17B-128E
    us-east5
    • 每分鐘查詢次數:60
    524,288
    Llama 4 Scout 17B-16E
    us-east5
    • 每分鐘查詢次數:60
    1,310,720
    Llama 3.3 70B
    us-central1
    • QPM:30
    128,000
    Llama 3.2 90B
    us-central1
    • QPM:30
    128,000
    Llama 3.1 405B
    us-central1
    • 每分鐘查詢次數:60
    128,000
    Llama 3.1 70B
    us-central1
    • 每分鐘查詢次數:60
    128,000
    Llama 3.1 8B
    us-central1
    • 每分鐘查詢次數:60
    128,000

    如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「使用配額」。