您可以使用 Anthropic 的 SDK 或 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:
- 如要使用 Claude Opus 4,請使用
claude-opus-4@20250514
- 如要使用 Claude Sonnet 4,請按
claude-sonnet-4@20250514
- 如要使用 Claude 3.7 Sonnet,請按
claude-3-7-sonnet@20250219
- 如要使用 Claude 3.5 Sonnet v2,請使用
claude-3-5-sonnet-v2@20241022
- 如要使用 Claude 3.5 Haiku,請按
claude-3-5-haiku@20241022
- 如要使用 Claude 3.5 Sonnet,請按一下
claude-3-5-sonnet@20240620
- 如要使用 Claude 3 Opus,請使用
claude-3-opus@20240229
- 如要使用 Claude 3 Haiku,請使用
claude-3-haiku@20240307
使用 Anthropic Claude 模型版本時,必須加上以 @
符號開頭的後置字串 (例如 claude-3-7-sonnet@20250219
或 claude-3-5-haiku@20241022
),才能確保行為一致。
事前準備
如要在 Vertex AI 中使用 Anthropic Claude 模型,請按照下列步驟操作。如要使用 Vertex AI,必須啟用 Vertex AI API (aiplatform.googleapis.com
)。如果您現有的專案已啟用 Vertex AI API,可以使用該專案,不必建立新專案。
請確認您具備啟用及使用合作夥伴模型所需的權限。 詳情請參閱「授予必要權限」。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 前往下列任一 Model Garden 模型資訊卡,然後按一下「啟用」:
- Anthropic 建議您啟用提示和完成活動的 30 天記錄功能,以便記錄任何模型濫用情形。如要啟用記錄功能,請參閱 [記錄要求和回應][logging]。
- LOCATION:支援 Anthropic Claude 模型的區域。如要使用全域端點,請參閱「指定全域端點」。
- MODEL:您要使用的模型名稱。
- ROLE:與訊息相關聯的角色。您可以指定
user
或assistant
。 第一則訊息必須使用user
角色。Claude 模型會交替進行user
和assistant
回合。如果最後一則訊息使用assistant
角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。 - STREAM:布林值,用於指定是否要串流傳輸回覆。串流回應可縮短使用者感受到的延遲時間。設為
true
可串流回應,設為false
則可一次傳回所有回應。 - CONTENT:
user
或assistant
訊息的內容,例如文字。 - MAX_TOKENS:
回覆內可以生成的詞元數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。
- TOP_P (選用):
Top-P 會影響模型選取輸出詞元的方式。模型會按照可能性最高到最低的順序選取符記,直到所選符記的可能性總和等於 Top-P 值。舉例來說,假設詞元 A、B 和 C 的可能性分別為 0.3、0.2 和 0.1,而「Top-P」值為
0.5
,模型會依據 temperature 選擇 A 或 B 做為下一個詞元,並排除 C。如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。
- TOP_K(選用):
Top-K 會影響模型選取輸出詞元的方式。如果 Top-K 設為
1
,代表下一個所選詞元是模型詞彙表的所有詞元中可能性最高者 (也稱為「貪婪解碼」)。如果 Top-K 設為3
,則代表模型會依據 temperature,從可能性最高的 3 個詞元中選取下一個詞元。在每個符記選取步驟中,模型會對機率最高的「Top-K」符記取樣,接著進一步根據「Top-P」篩選詞元,最後依 temperature 選出最終詞元。
如要取得較不隨機的回覆,請指定較低的值;如要取得較隨機的回覆,請調高此值。
- TYPE:如要為 Claude 3.7 Sonnet 和後續推出的 Claude 模型啟用擴展思考模式,請指定
enable
。 - BUDGET_TOKENS:如果啟用擴展思考功能,您必須指定模型可使用的權杖數量,做為輸出內容的一部分,用於內部推理。預算較高時,系統就能針對複雜問題進行更深入的分析,並提升回覆品質。您必須指定大於或等於
1024
但小於MAX_TOKENS
的值。 - LOCATION:支援 Anthropic Claude 模型的區域。如要使用全域端點,請參閱「指定全域端點」。
- MODEL:要使用的模型名稱。
- ROLE:與訊息相關聯的角色。您可以指定
user
或assistant
。 第一則訊息必須使用user
角色。Claude 模型會交替進行user
和assistant
回合。如果最後一則訊息使用assistant
角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。 - STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為
true
可串流回應,設為false
則可一次傳回回應。 - CONTENT:
user
或assistant
訊息的內容,例如文字。 - MAX_TOKENS:
回覆內可以生成的權杖數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。
online_prediction_requests_per_base_model
和global_online_prediction_requests_per_base_model
定義 QPM 配額。TPM 有三種配額值,適用於特定機型:
- 對於同時計算輸入和輸出權杖的模型,
online_prediction_tokens_per_minute_per_base_model
和global_online_prediction_tokens_per_minute_per_base_model
定義了模型 TPM 配額。 - 對於分別計算輸入和輸出權杖的模型,
online_prediction_input_tokens_per_minute_per_base_model
和global_online_prediction_input_tokens_per_minute_per_base_model
會定義輸入 TPM 配額,online_prediction_output_tokens_per_minute_per_base_model
和global_online_prediction_output_tokens_per_minute_per_base_model
則會定義輸出 TPM 配額。
如要查看哪些模型會分別計算輸入和輸出權杖,請參閱依模型和區域劃分的配額。
- 對於同時計算輸入和輸出權杖的模型,
- 輸入權杖包括所有輸入權杖,包括快取讀取和快取寫入權杖。
- 未快取的輸入權杖只包含未從快取讀取的輸入權杖 (快取讀取權杖)。
- 快取寫入權杖包括用於建立或更新快取的權杖。
- QPM:25
- 輸入 TPM:60,000 未快取和快取寫入
- 輸出 TPM:6,000
- QPM:25
- 輸入 TPM:60,000 未快取和快取寫入
- 輸出 TPM:6,000
- QPM:35
- 輸入 TPM:280,000 未快取和快取寫入
- 輸出 TPM:20,000
- QPM:25
- 輸入 TPM:180,000 未快取和快取寫入
- 輸出 TPM:20,000
- QPM:70
- 輸入 TPM:550,000 未快取和快取寫入
- 輸出 TPM:50,000
- QPM:35
- 輸入 TPM:276,000 未快取和快取寫入
- 輸出 TPM:24,000
- QPM:55
- TPM:500,000 (未快取的輸入和輸出)
- QPM:40
- TPM:300,000 (未快取的輸入和輸出)
- QPM:35
- TPM:300,000 (未快取的輸入和輸出)
- QPM:90
- TPM:540,000 (輸入和輸出)
- QPM:55
- TPM:330,000 (輸入和輸出)
- QPM:25
- TPM:140,000 (輸入和輸出)
- QPM:80
- TPM:350,000 (輸入和輸出)
- QPM:80
- TPM:350,000 (輸入和輸出)
- QPM:130
- TPM:600,000 (輸入和輸出)
- QPM:35
- TPM:150,000 (輸入和輸出)
- QPM:20
- TPM:105,000 (輸入和輸出)
- QPM:245
- TPM:600,000 (輸入和輸出)
- QPM:75
- TPM:181,000 (輸入和輸出)
- QPM:70
- TPM:174,000 (輸入和輸出)
使用 Anthropic SDK
您可以使用 Anthropic Claude SDK,向 Anthropic Claude 模型發出 API 要求。詳情請參閱下列文章:
使用 Anthropic Vertex SDK 對 Claude 模型進行串流呼叫
下列程式碼範例使用 Anthropic Vertex SDK,對 Claude 模型執行串流呼叫。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
下列範例使用區域端點。如要使用全域端點,請參閱「指定全域端點」。使用 Anthropic Vertex SDK 對 Claude 模型發出一元呼叫
下列程式碼範例使用 Anthropic Vertex SDK,對 Claude 模型執行一元呼叫。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
下列範例使用區域端點。如要使用全域端點,請參閱「指定全域端點」。使用 curl 指令
您可以使用 curl 指令向 Vertex AI 端點提出要求。 curl 指令會指定要使用的支援 Claude 模型。
使用 Anthropic Claude 模型版本時,必須加上以 @
符號開頭的後置字串 (例如 claude-3-7-sonnet@20250219
或 claude-3-5-haiku@20241022
),才能確保行為一致。
以下主題說明如何建立 curl 指令,並提供 curl 指令範例。
REST
如要使用 Vertex AI API 測試文字提示,請將 POST 要求傳送至發布商模型端點。
下列範例使用區域端點。如要使用全域端點,請參閱「指定全域端點」。使用任何要求資料之前,請先替換以下項目:
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
JSON 要求主體:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM, "thinking": { "type": "TYPE", "budget_tokens": BUDGET_TOKENS } }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
您應該會收到類似如下的 JSON 回應。
curl 指令範例
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
使用工具 (函式呼叫)
Anthropic Claude 模型支援工具和函式呼叫功能,可提升模型功能。詳情請參閱 Anthropic 說明文件中的「工具使用總覽」。
下列範例示範如何使用 SDK 或 curl 指令使用工具。這些範例會搜尋舊金山附近營業中的餐廳。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
下列範例使用區域端點。如要使用全域端點,請參閱「指定全域端點」。REST
下列範例使用區域端點。如要使用全域端點,請參閱「指定全域端點」。使用任何要求資料之前,請先替換以下項目:
HTTP 方法和網址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
JSON 要求主體:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
如要傳送要求,請選擇以下其中一個選項:
curl
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
將要求主體儲存在名為 request.json
的檔案中,然後執行下列指令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
您應該會收到類似如下的 JSON 回應。
使用 Vertex AI Studio
對於部分 Anthropic Claude 模型,您可以使用 Vertex AI Studio 在 Google Cloud 控制台中快速設計及測試生成式 AI 模型原型。舉例來說,您可以使用 Vertex AI Studio 比較 Claude 模型回覆與其他支援的模型,例如 Google Gemini。
詳情請參閱「快速入門:使用 Vertex AI Studio 向 Gemini 傳送文字提示」。
Anthropic Claude 配額和區域可用性
Claude 模型有地區配額,如果模型支援全域端點,則會有全域配額。配額以每分鐘查詢次數 (QPM) 和每分鐘權杖數 (TPM) 為單位。TPM 包含輸入和輸出權杖。
為維持整體服務效能和可接受的使用情形,配額上限可能會因帳戶而異,有時存取權也可能會受到限制。在 Google Cloud 控制台的「配額與系統限制」頁面中,查看專案的配額。您也必須擁有下列配額:
輸入內容詞元
下表列出可計入輸入 TPM 配額的輸入權杖。每個模型計算的輸入權杖可能不盡相同。如要瞭解模型會計入哪些輸入權杖,請參閱「依模型和區域劃分的配額」。
依模型和區域劃分的配額
下表列出各區域中每個模型的預設配額和支援的背景資訊長度。
模型 | 區域 | 配額 | 脈絡長度 |
---|---|---|---|
Claude Opus 4 | |||
us-east5 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude Sonnet 4 | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-east1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.7 Sonnet | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.5 Sonnet v2 | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
global endpoint |
|
200,000 | |
Claude 3.5 Haiku | |||
us-east5 |
|
200,000 | |
Claude 3.5 Sonnet | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-southeast1 |
|
200,000 | |
Claude 3 Opus | |||
us-east5 |
|
200,000 | |
Claude 3 Haiku | |||
us-east5 |
|
200,000 | |
europe-west1 |
|
200,000 | |
asia-southeast1 |
|
200,000 |
如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「使用配額」。