本頁面由 Cloud Translation API 翻譯而成。

Mistral AI 模型

Vertex AI 上的 Mistral AI 模型提供全代管無伺服器模型，可做為 API 使用。如要在 Vertex AI 上使用 Mistral AI 模型，請直接將要求傳送至 Vertex AI API 端點。由於 Mistral AI 模型使用受管理的 API，因此不需要佈建或管理基礎架構。

您可以串流回應，減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE)，逐步串流回應。

您只需為實際使用的 Mistral AI 模型付費 (即付即用)。如需隨用隨付定價，請參閱 Vertex AI 定價頁面上的 Mistral AI 模型定價。

page。

可用的 Mistral AI 模型

您可以在 Vertex AI 中使用 Mistral AI 的下列模型。如要存取 Mistral AI 模型，請前往其 Model Garden 模型資訊卡。

Mistral Medium 3

Mistral Medium 3 是多功能模型，適用於各種工作，包括程式設計、數學推理、解讀長篇文件、摘要和對話。擅長處理需要進階推理能力、理解圖像或高度專業知識的複雜工作 (例如創意寫作、代理工作流程、生成程式碼)。

Gemini 具有多模態功能，可處理視覺輸入內容，並支援數十種語言，包括超過 80 種程式設計語言。此外，這項功能還提供函式呼叫和代理工作流程。

Mistral Medium 3 經過最佳化，可進行單一節點推論，特別適合長背景區間應用程式。這個大小可讓單一節點達到高總處理量。

前往 Mistral Medium 3 模型資訊卡

Mistral OCR (25.05)

Mistral OCR (25.05) 是文件理解的光學字元辨識 API。Mistral OCR (25.05) 擅長解讀複雜的文件元素，包括交錯的圖像、數學運算式、表格，以及 LaTeX 格式等進階版面配置。這項模型可深入瞭解內容豐富的文件，例如含有圖表、方程式和圖示的科學論文。

Mistral OCR (25.05) 是搭配 RAG 系統使用的理想模型，可將投影片或複雜的 PDF 等多模態文件做為輸入內容。

您可以將 Mistral OCR (25.05) 與其他 Mistral 模型配對，重新格式化結果。這項組合可確保擷取的內容不僅準確，還能以結構化且連貫的方式呈現，適用於各種下游應用程式和分析。

前往 Mistral OCR (25.05) 模型資訊卡

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) 具備多模態功能，脈絡最多可達 128,000 個。與先前的 Mistral AI Small 模型相比，這款模型可處理及解讀視覺輸入內容和長篇文件，進一步擴大應用範圍。Mistral Small 3.1 (25.03) 是一款多功能模型，適用於各種工作，例如程式設計、數學推理、瞭解文件和對話。Mistral Small 3.1 (25.03) 專為低延遲應用程式設計，與同等品質的模型相比，效率最高。

Mistral Small 3.1 (25.03) 經過完整的訓練後處理程序，可配合人類偏好和需求，因此適用於需要聊天或精確遵循指令的應用程式。

前往 Mistral Small 3.1 (25.03) 模型資訊卡

Mistral Large (24.11)

Mistral Large (24.11) 是 Mistral AI Large 模型的最新版本，推論和函式呼叫功能都獲得提升。

以代理程式為中心：提供一流的代理程式功能，內建函式呼叫和 JSON 輸出。
支援多種語言：支援數十種語言，包括英文、法文、德文、西班牙文、義大利文、中文、日文、韓文、葡萄牙文、荷蘭文和波蘭文
精通程式設計：接受過 80 多種程式語言的訓練，例如 Python、Java、C、C++、JavaScript 和 Bash。也接受過更具體的語言訓練，例如 Swift 和 Fortran
進階推理：具備最先進的數學和推理能力。

前往 Mistral Large (24.11) 模型資訊卡

Codestral 2

Codestral 2 是 Mistral 的程式碼生成專用模型，專為高精確度的中間填空 (FIM) 補全功能而建構。開發人員可透過共用的指令和完成 API 端點，編寫程式碼並與程式碼互動。這項技術精通程式碼，也能使用多種語言對話，因此軟體開發人員可用於設計進階 AI 應用程式。

最新版 Codestral 2 比舊版 Codestral (25.01) 有顯著提升：

接受的完成次數增加 30%。
建議後保留的程式碼多出 10%。
減少 50% 的失控生成內容，提高較長編輯內容的準確度。

改善短期和長期情境 FIM 完成的學術基準成效。

生成程式碼：程式碼完成、建議、翻譯。
瞭解程式碼和說明文件：提供程式碼摘要和說明。
程式碼品質：程式碼審查、重構、修正錯誤及產生測試案例。
程式碼填空：使用者可以透過提示定義程式碼的起點，並使用選用後置字串和選用停止字元定義程式碼的終點。Codestral 模型接著會生成適合插入其中的程式碼，因此非常適合需要生成特定程式碼片段的工作。

前往 Codestral 2 模型資訊卡

Codestral (25.01)

Codestral (25.01) 專為程式碼生成工作而設計，開發人員可透過共用的指令和完成 API 端點，編寫程式碼並與程式碼互動。Codestral (25.01) 不僅精通程式碼，還能以多種語言對話，因此軟體開發人員可以運用這項模型設計進階 AI 應用程式。

Codestral (25.01) 精通超過 80 種程式設計語言，包括 Python、Java、C、C++、JavaScript 和 Bash。在 Swift 和 Fortran 等更具體的語言中，這項模型也能發揮良好效用。
Codestral (25.01) 有助於提升開發人員的生產力並減少錯誤：Codestral (25.01) 可以完成程式設計函式、編寫測試，以及使用填空機制完成任何部分程式碼。
Codestral (25.01) 只有 240 億個參數和 128,000 個內容視窗，卻在效能和延遲方面樹立了新標準。

Codestral (25.01) 適用於下列用途：

生成程式碼，並提供程式碼補全、建議和翻譯功能。
在使用者定義的起點和終點之間新增程式碼，因此非常適合需要生成特定程式碼的作業。
摘要說明程式碼。
協助重構程式碼、修正錯誤及生成測試案例，以檢查程式碼品質。

前往 Codestral (25.01) 模型資訊卡

使用 Mistral AI 模型

您可以使用 curl 指令，透過下列模型名稱將要求傳送至 Vertex AI 端點：

如要使用 Mistral Medium 3，請使用 mistral-medium-3
如要使用 Mistral OCR (25.05)，請使用 mistral-ocr-2505
如要使用 Mistral Small 3.1 (25.03)，請使用 mistral-small-2503
如要使用 Mistral Large (24.11)，請輸入 mistral-large-2411
如要使用 Codestral 2，請使用 codestral-2
如要使用 Codestral (25.01)，請輸入 codestral-2501

如要進一步瞭解如何使用 Mistral AI SDK，請參閱 Mistral AI Vertex AI 說明文件。

事前準備

如要在 Vertex AI 中使用 Mistral AI 模型，請完成下列步驟。如要使用 Vertex AI，必須啟用 Vertex AI API (aiplatform.googleapis.com)。如果您已有啟用 Vertex AI API 的專案，可以改用該專案，不必建立新專案。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

前往下列任一 Model Garden 模型資訊卡，然後按一下「啟用」：

對 Mistral AI 模型發出串流呼叫

下列範例會對 Mistral AI 模型發出串流呼叫。

REST

設定環境後，即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

使用任何要求資料之前，請先替換以下項目：

LOCATION：支援 Mistral AI 模型的區域。
MODEL：要使用的模型名稱。在要求主體中，排除 @ 模型版本號碼。
ROLE：與訊息相關聯的角色。您可以指定 user 或 assistant。第一則訊息必須使用 user 角色。模型會交替進行 user 和 assistant 回合。如果最終訊息使用 assistant 角色，回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
STREAM：布林值，用於指定是否要串流傳輸回覆。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應，設為 false 則可一次傳回回應。
CONTENT：user 或 assistant 訊息的內容，例如文字。
MAX_OUTPUT_TOKENS：回覆內可以生成的權杖數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆，請指定較低的值；如要取得可能較長的回覆，請調高此值。

HTTP 方法和網址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

JSON 要求主體：

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

如要傳送要求，請選擇以下其中一個選項：

curl

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI，或使用 Cloud Shell，自動登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

您應該會收到類似如下的 JSON 回應。

回應

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

對 Mistral AI 模型發出一元呼叫

以下範例會對 Mistral AI 模型進行一元呼叫。

REST

設定環境後，即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

使用任何要求資料之前，請先替換以下項目：

LOCATION：支援 Mistral AI 模型的區域。
MODEL：要使用的模型名稱。在要求主體中，排除 @ 模型版本號碼。
ROLE：與訊息相關聯的角色。您可以指定 user 或 assistant。第一則訊息必須使用 user 角色。模型會交替進行 user 和 assistant 回合。如果最終訊息使用 assistant 角色，回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
STREAM：布林值，用於指定是否要串流傳輸回覆。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應，設為 false 則可一次傳回回應。
CONTENT：user 或 assistant 訊息的內容，例如文字。
MAX_OUTPUT_TOKENS：回覆內可以生成的權杖數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。
如要取得較短的回覆，請指定較低的值；如要取得可能較長的回覆，請調高此值。

HTTP 方法和網址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON 要求主體：

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

如要傳送要求，請選擇以下其中一個選項：

curl

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

您應該會收到類似如下的 JSON 回應。

回應

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Mistral AI 模型區域供應情形和配額

使用 Mistral AI 模型時，每個模型適用的區域都有配額限制。配額以每分鐘查詢次數 (QPM) 和每分鐘權杖數 (TPM) 為單位。TPM 包含輸入和輸出權杖。

模型	區域	配額	脈絡長度
Mistral Medium 3
	`us-central1`	QPM：90 TPM：315,000	128,000
	`europe-west4`	QPM：90 TPM：315,000	128,000
Mistral OCR (25.05)
	`us-central1`	每分鐘查詢次數：30 每個要求可處理的頁數：30 (1 頁 = 100 萬個輸入權杖和 100 萬個輸出權杖)	30 頁
	`europe-west4`	每分鐘查詢次數：30 每個要求可處理的頁數：30 (1 頁 = 100 萬個輸入權杖和 100 萬個輸出權杖)	30 頁
Mistral Small 3.1 (25.03)
	`us-central1`	每分鐘查詢次數：60 TPM：200,000	128,000
	`europe-west4`	每分鐘查詢次數：60 TPM：200,000	128,000
Mistral Large (24.11)
	`us-central1`	每分鐘查詢次數：60 TPM：400,000	128,000
	`europe-west4`	每分鐘查詢次數：60 TPM：400,000	128,000
Codestral 2
	`us-central1`	每分鐘查詢次數：1,100 輸入 TPM：1,100,000 輸出 TPM：110,000	128,000 個權杖
	`europe-west4`	每分鐘查詢次數：1,100 輸入 TPM：1,100,000 輸出 TPM：110,000	128,000 個權杖
Codestral (25.01)
	`us-central1`	每分鐘查詢次數：60 TPM：400,000	32,000
	`europe-west4`	每分鐘查詢次數：60 TPM：400,000	32,000

如要增加任何 Vertex AI 的生成式 AI 配額，可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額，請參閱 Cloud Quotas 總覽。