您可以使用 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:
- 如要使用 Llama 4 Maverick 17B-128E,請使用
llama-4-maverick-17b-128e-instruct-maas
- 如要使用 Llama 4 Scout 17B-16E,請使用
llama-4-scout-17b-16e-instruct-maas
- 如要使用 Llama 3.3 70B,請使用
llama-3.3-70b-instruct-maas
- 如要使用 Llama 3.2 90B,請使用
llama-3.2-90b-vision-instruct-maas
- 如要使用 Llama 3.1 405B,請使用
llama-3.1-405b-instruct-maas
- 如要使用 Llama 3.1 70B,請使用
llama-3.1-70b-instruct-maas
- 如要使用 Llama 3.1 8B,請使用
llama-3.1-8b-instruct-maas
事前準備
如要在 Vertex AI 中使用 Llama 模型,請執行下列步驟。如要使用 Vertex AI,必須啟用 Vertex AI API (aiplatform.googleapis.com
)。如果您已有啟用 Vertex AI API 的專案,可以改用該專案,不必建立新專案。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 前往下列任一 Model Garden 模型資訊卡,然後按一下「啟用」:
- LOCATION:支援 Llama 模型的區域。
- MODEL:您要使用的模型名稱。
- ROLE:與訊息相關聯的角色。您可以指定
user
或assistant
。 第一則訊息必須使用user
角色。模型會交替進行user
和assistant
輪次。如果最後一則訊息使用assistant
角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。 - CONTENT:
user
或assistant
訊息的內容,例如文字。 - MAX_OUTPUT_TOKENS:
回覆內可以生成的權杖數量上限。一個詞元約為四個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。
- STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為
true
可串流回應,設為false
則可一次傳回回應。 - ENABLE_LLAMA_GUARD: 布林值,指定是否要在輸入和輸出內容中啟用 Llama Guard。Llama Guard 預設為啟用狀態,如果判斷回覆內容不安全,就會標示出來。
- LOCATION:支援 Llama 模型的區域。
- MODEL:您要使用的模型名稱。
- ROLE:與訊息相關聯的角色。您可以指定
user
或assistant
。 第一則訊息必須使用user
角色。模型會交替進行user
和assistant
輪次。如果最後一則訊息使用assistant
角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。 - CONTENT:
user
或assistant
訊息的內容,例如文字。 - MAX_OUTPUT_TOKENS:
回覆內可以生成的權杖數量上限。一個詞元約為四個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。
- STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為
true
可串流回應,設為false
則可一次傳回回應。 - ENABLE_LLAMA_GUARD: 布林值,指定是否要在輸入和輸出內容中啟用 Llama Guard。Llama Guard 預設為啟用狀態,如果判斷回覆內容不安全,就會標示出來。
- 每分鐘查詢次數:60
- 每分鐘查詢次數:60
- QPM:30
- QPM:30
- 每分鐘查詢次數:60
- 每分鐘查詢次數:60
- 每分鐘查詢次數:60
對 Llama 模型發出串流呼叫
下列範例會對 Llama 模型發出串流呼叫。
REST
設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。
使用任何要求資料之前,請先替換以下項目:
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
JSON 要求主體:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您應該會收到類似如下的 JSON 回應。
對 Llama 模型發出一元呼叫
以下範例會對 Llama 模型進行一元呼叫。
REST
設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。
使用任何要求資料之前,請先替換以下項目:
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
JSON 要求主體:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您應該會收到類似如下的 JSON 回應。
已標記的回覆
根據預設,使用 Llama 3.3 和 Llama 3.1 模型進行的所有預測都會啟用 Llama Guard 3 8B。根據預設,使用 Llama 3.2 模型進行的所有預測都會啟用 Llama Guard 3 11B 視覺功能。Llama Guard 會檢查輸入和輸出內容,協助保護回覆內容。如果 Llama Guard 判斷回覆內容不安全,就會標記該回覆。
如要停用 Llama Guard,請修改模型安全設定。詳情請參閱串流或一元範例中的 model_safety_settings
欄位。
使用 Vertex AI Studio
如要使用 Llama 模型,您可以在 Google Cloud 控制台使用 Vertex AI Studio,快速設計生成式 AI 模型原型並進行測試。舉例來說,您可以使用 Vertex AI Studio 比較 Llama 模型回覆與其他支援的模型,例如 Google 的 Gemini。
詳情請參閱「快速入門:使用 Vertex AI Studio 向 Gemini 傳送文字提示」。
Llama 模型支援的區域和配額
如果是 Llama 模型,配額適用於模型可用的每個區域。配額以每分鐘查詢次數 (QPM) 為單位。
模型 | 區域 | 配額 | 脈絡長度 |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524,288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1,310,720 | |
Llama 3.3 70B | |||
us-central1 |
|
128,000 | |
Llama 3.2 90B | |||
us-central1 |
|
128,000 | |
Llama 3.1 405B | |||
us-central1 |
|
128,000 | |
Llama 3.1 70B | |||
us-central1 |
|
128,000 | |
Llama 3.1 8B | |||
us-central1 |
|
128,000 |
如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「使用配額」。