您可以使用 Anthropic 的 SDK 或 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:
- 对于 Claude Opus 4,请使用
claude-opus-4@20250514
- 对于 Claude Sonnet 4,请使用
claude-sonnet-4@20250514
- 对于 Claude 3.7 Sonnet,请使用
claude-3-7-sonnet@20250219
- 对于 Claude 3.5 Sonnet v2,请使用
claude-3-5-sonnet-v2@20241022
- 对于 Claude 3.5 Haiku,请使用
claude-3-5-haiku@20241022
- 对于 Claude 3.5 Sonnet,请使用
claude-3-5-sonnet@20240620
- 对于 Claude 3 Opus,请使用
claude-3-opus@20240229
- 对于 Claude 3 Haiku,请使用
claude-3-haiku@20240307
必须将 Anthropic Claude 模型版本与以 @
符号开头的后缀(例如 claude-3-7-sonnet@20250219
或 claude-3-5-haiku@20241022
)搭配使用,才能保证行为一致。
准备工作
如需将 Anthropic Claude 模型与 Vertex AI 搭配使用,您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com
) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目,则可以使用该项目,而无需创建新项目。
确保您拥有启用和使用合作伙伴模型所需的权限。如需了解详情,请参阅授予所需权限。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 前往以下 Model Garden 模型卡片之一,然后点击启用:
- Anthropic 建议您启用提示和完成活动的 30 天日志记录,以记录任何模型滥用行为。如需启用日志记录,请参阅 [记录请求和响应][logging]。
- LOCATION:支持 Anthropic Claude 模型的区域。如需使用全球端点,请参阅指定全球端点。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 Claude 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_TOKENS:回答中可生成的词元数量上限。一个词元约为 3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- TOP_P(可选):Top-p 可更改模型选择输出词元的方式。系统会按照概率从最高到最低的顺序选择词元,直到所选词元的概率总和等于 top-P 的值。例如,如果词元 A、B 和 C 的概率分别为 0.3、0.2 和 0.1,并且 top-P 值为
0.5
,则模型将选择 A 或 B 作为下一个词元(通过温度确定),并会排除 C,将其作为候选词元。指定较低的值可获得随机程度较低的回答,指定较高的值可获得随机程度较高的回答。
- TOP_K(可选):Top-K 可更改模型选择输出词元的方式。如果 top-K 设为
1
,表示所选词元是模型词汇表的所有词元中概率最高的词元(也称为贪心解码)。如果 top-K 设为3
,则表示系统将从 3 个概率最高的词元(通过温度确定)中选择下一个词元。在每个词元选择步骤中,系统都会对概率最高的 top-K 词元进行采样。然后,系统会根据 top-P 进一步过滤词元,并使用温度采样选择最终的词元。
指定较低的值可获得随机程度较低的回答,指定较高的值可获得随机程度较高的回答。
- TYPE:(适用于 Claude 3.7 Sonnet 及更高版本的 Claude 模型)如需启用扩展思考模式,请指定
enable
。 - BUDGET_TOKENS:如果您启用了扩展思考,则必须指定模型可用于其内部推理作为输出内容的一部分的 token 数。更大的预算可以让您对复杂问题进行更全面的分析,并提高回答质量。您必须指定一个大于或等于
1024
但小于MAX_TOKENS
的值。 - LOCATION:支持 Anthropic Claude 模型的区域。如需使用全球端点,请参阅指定全球端点。
- MODEL:要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 Claude 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_TOKENS:响应中可生成的词元数量上限。一个词元约为 3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
online_prediction_requests_per_base_model
和global_online_prediction_requests_per_base_model
用于定义您的 QPM 配额。对于 TPM,有三个配额值适用于特定型号:
- 对于将输入和输出词元数一起计算的模型,
online_prediction_tokens_per_minute_per_base_model
和global_online_prediction_tokens_per_minute_per_base_model
定义了模型 TPM 配额。 - 对于分别统计输入和输出词元的模型,
online_prediction_input_tokens_per_minute_per_base_model
和global_online_prediction_input_tokens_per_minute_per_base_model
定义了输入 TPM 配额,online_prediction_output_tokens_per_minute_per_base_model
和global_online_prediction_output_tokens_per_minute_per_base_model
定义了输出 TPM 配额。
如需了解哪些模型会分别计算输入和输出词元,请参阅按模型和区域的配额。
- 对于将输入和输出词元数一起计算的模型,
- 输入令牌包括所有输入令牌,包括缓存读取和缓存写入令牌。
- 未缓存的输入令牌仅包含未从缓存中读取的输入令牌(缓存读取令牌)。
- 缓存写入令牌包括用于创建或更新缓存的令牌。
- QPM:25
- 输入 TPM:60,000 非缓存和缓存写入
- 输出 TPM:6,000
- QPM:25
- 输入 TPM:60,000 非缓存和缓存写入
- 输出 TPM:6,000
- QPM:35
- 输入 TPM:280,000 未缓存和缓存写入
- 输出 TPM:20,000
- QPM:25
- 输入 TPM:180,000 未缓存和缓存写入
- 输出 TPM:20,000
- QPM:70
- 输入 TPM:550,000 未缓存和缓存写入
- 输出 TPM:50,000
- QPM:35
- 输入 TPM:276,000 未缓存和缓存写入
- 输出 TPM:24,000
- QPM:55
- TPM:50 万(未缓存的输入和输出)
- QPM:40
- TPM:30 万(未缓存的输入和输出)
- QPM:35
- TPM:30 万(未缓存的输入和输出)
- QPM:90
- TPM:54 万(输入和输出)
- QPM:55
- TPM:33 万(输入和输出)
- QPM:25
- TPM:14 万(输入和输出)
- QPM:80
- TPM:35 万(输入和输出)
- QPM:80
- TPM:35 万(输入和输出)
- QPM:130
- TPM:60 万(输入和输出)
- QPM:35
- TPM:15 万(输入和输出)
- QPM:20
- TPM:105,000(输入和输出)
- QPM:245
- TPM:60 万(输入和输出)
- QPM:75
- TPM:181,000(输入和输出)
- QPM:70
- TPM:174,000(输入和输出)
使用 Anthropic SDK
您可以使用 Anthropic Claude SDK 向 Anthropic Claude 模型发出 API 请求。如需了解详情,请参阅以下内容:
使用 Anthropic Vertex SDK 对 Claude 模型进行流式调用
以下代码示例使用 Anthropic Vertex SDK 对 Claude 模型执行流式调用。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
以下示例使用区域级端点。如需使用全球端点,请参阅指定全球端点。使用 Anthropic Vertex SDK 对 Claude 模型进行一元调用
以下代码示例使用 Anthropic Vertex SDK 对 Claude 模型执行一元调用。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
以下示例使用区域级端点。如需使用全球端点,请参阅指定全球端点。使用 curl 命令
您可以使用 curl 命令向 Vertex AI 端点发出请求。curl 命令指定要使用的受支持的 Claude 模型。
必须将 Anthropic Claude 模型版本与以 @
符号开头的后缀(例如 claude-3-7-sonnet@20250219
或 claude-3-5-haiku@20241022
)搭配使用,才能保证行为一致。
以下主题介绍如何创建 curl 命令并包含示例 curl 命令。
REST
如需使用 Vertex AI API 测试文本提示,请向发布方模型端点发送 POST 请求。
以下示例使用区域级端点。如需使用全球端点,请参阅指定全球端点。在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
请求 JSON 正文:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM, "thinking": { "type": "TYPE", "budget_tokens": BUDGET_TOKENS } }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
示例 curl 命令
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
工具使用(函数调用)
Anthropic Claude 模型支持工具和函数调用,以增强模型的功能。如需了解详情,请参阅 Anthropic 文档中的工具使用概览。
以下示例演示了如何使用 SDK 或 curl 命令来使用工具。这些示例会搜索旧金山附近正在营业的餐厅。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
以下示例使用区域级端点。如需使用全球端点,请参阅指定全球端点。REST
以下示例使用区域级端点。如需使用全球端点,请参阅指定全球端点。在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
请求 JSON 正文:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
使用 Vertex AI Studio
对于某些 Anthropic Claude 模型,您可以使用 Vertex AI Studio 在 Google Cloud 控制台中快速对生成式 AI 模型进行原型开发和测试。例如,您可以使用 Vertex AI Studio 将 Claude 模型的回答与其他受支持的模型(例如 Google Gemini)的回答进行比较。
如需了解详情,请参阅快速入门:使用 Vertex AI Studio 向 Gemini 发送文本提示。
Anthropic Claude 配额和区域可用性
Claude 模型具有区域配额,对于支持全球端点的模型,还具有全球配额。配额在每分钟查询次数 (QPM) 和每分钟令牌数 (TPM) 中指定。TPM 包括输入和输出词元。
为了保持整体服务性能和可接受的使用情况,配额上限可能会因账号而异,并且在某些情况下,访问可能会受到限制。在 Google Cloud 控制台的配额和系统限制页面上查看项目的配额。 您还必须拥有以下可用配额:
输入令牌
以下列表定义了可计入输入 TPM 配额的输入令牌。每种模型统计的输入令牌数量可能有所不同。如需了解模型会统计哪些输入令牌,请参阅按模型和区域划分的配额。
按模型和区域划分的配额
下表展示了每个模型在每个区域中的默认配额和支持的上下文长度。
型号 | 区域 | 配额 | 上下文长度 |
---|---|---|---|
Claude Opus 4 | |||
us-east5 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude Sonnet 4 | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-east1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.7 Sonnet | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.5 Sonnet v2 | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.5 Haiku | |||
us-east5 |
|
200,000 | |
Claude 3.5 Sonnet | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-southeast1 |
|
200,000 | |
Claude 3 Opus | |||
us-east5 |
|
200,000 | |
Claude 3 Haiku | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-southeast1 |
|
200,000 |
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。