您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:
- 对于 Llama 4 Maverick 17B-128E,请使用
llama-4-maverick-17b-128e-instruct-maas
- 对于 Llama 4 Scout 17B-16E,请使用
llama-4-scout-17b-16e-instruct-maas
- 对于 Llama 3.3 70B,请使用
llama-3.3-70b-instruct-maas
- 对于 Llama 3.2 90B,请使用
llama-3.2-90b-vision-instruct-maas
- 对于 Llama 3.1 405B,请使用
llama-3.1-405b-instruct-maas
- 对于 Llama 3.1 70B,请使用
llama-3.1-70b-instruct-maas
- 对于 Llama 3.1 8B,请使用
llama-3.1-8b-instruct-maas
准备工作
如需将 Llama 模型与 Vertex AI 搭配使用,您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com
) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目,则可以使用该项目,而无需创建新项目。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 前往以下 Model Garden 模型卡片之一,然后点击启用:
- LOCATION:支持 Llama 模型的区域。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:响应中可生成的词元数量上限。词元约为 4 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - ENABLE_LLAMA_GUARD:一个布尔值,用于指定是否要在输入和输出中启用 Llama Guard。默认情况下,Llama Guard 处于启用状态,如果确定响应不安全,则会标记相应响应。
- LOCATION:支持 Llama 模型的区域。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:响应中可生成的词元数量上限。词元约为 4 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - ENABLE_LLAMA_GUARD:一个布尔值,用于指定是否要在输入和输出中启用 Llama Guard。默认情况下,Llama Guard 处于启用状态,如果确定响应不安全,则会标记相应响应。
- QPM:60
- QPM:60
- QPM:30
- QPM:30
- QPM:60
- QPM:60
- QPM:60
对 Llama 模型进行流式调用
以下示例会对 Llama 模型进行流式调用。
REST
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。
在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
请求 JSON 正文:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
对 Llama 模型进行一元调用
以下示例会对 Llama 模型进行一元调用。
REST
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。
在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
请求 JSON 正文:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
已标记的回复
默认情况下,Llama Guard 3 8B 会针对您使用 Llama 3.3 和 Llama 3.1 模型进行的所有预测启用。默认情况下,Llama Guard 3 11B vision 会针对您使用 Llama 3.2 模型进行的所有预测启用。Llama Guard 通过检查输入和输出来帮助保护响应。如果 Llama Guard 确定这些响应不安全,则会标记相应响应。
如果您想停用 Llama Guard,请修改模型安全设置。如需了解详情,请参阅流式或一元示例中的 model_safety_settings
字段。
使用 Vertex AI Studio
对于 Llama 模型,您可以使用 Vertex AI Studio 在 Google Cloud 控制台中快速对生成式 AI 模型进行原型设计和测试。例如,您可以使用 Vertex AI Studio 将 Llama 模型响应与其他受支持的模型(例如 Google 的 Gemini)的响应进行比较。
如需了解详情,请参阅快速入门:使用 Vertex AI Studio 向 Gemini 发送文本提示。
Llama 模型区域可用性和配额
对于 Llama 模型,提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。
型号 | 区域 | 配额 | 上下文长度 |
---|---|---|---|
Llama 4 Maverick 17B-128E | |||
us-east5 |
|
524,288 | |
Llama 4 Scout 17B-16E | |||
us-east5 |
|
1,310,720 | |
Llama 3.3 70B | |||
us-central1 |
|
128,000 | |
Llama 3.2 90B | |||
us-central1 |
|
128,000 | |
Llama 3.1 405B | |||
us-central1 |
|
128,000 | |
Llama 3.1 70B | |||
us-central1 |
|
128,000 | |
Llama 3.1 8B | |||
us-central1 |
|
128,000 |
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。