Mistral AI 模型

Vertex AI 上的 Mistral AI 模型提供全代管無伺服器模型,並以 API 形式提供。如要在 Vertex AI 上使用 Mistral AI 模型,請直接將要求傳送至 Vertex AI API 端點。由於 Mistral AI 模型使用受管理的 API,因此不需要佈建或管理基礎架構。

您可以串流回應,減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE),逐步串流回應。

您只需為實際使用的 Mistral AI 模型付費 (隨用隨付)。如需隨用隨付定價,請參閱 Vertex AI 定價頁面的 Mistral AI 模型定價。

可用的 Mistral AI 模型

您可以在 Vertex AI 中使用 Mistral AI 提供的下列模型。如要存取 Mistral AI 模型,請前往其 Model Garden 模型資訊卡。

Mistral OCR (25.05)

Mistral OCR (25.05) 是文件理解的光學字元辨識 API。Mistral OCR (25.05) 擅長解讀複雜的文件元素,包括交錯的圖像、數學運算式、表格,以及 LaTeX 格式等進階版面配置。這項模型可深入瞭解內容豐富的文件,例如含有圖表、方程式和圖示的科學論文。

Mistral OCR (25.05) 是搭配 RAG 系統使用的理想模型,可將多模態文件 (例如投影片或複雜的 PDF) 做為輸入內容。

您可以將 Mistral OCR (25.05) 與其他 Mistral 模型搭配使用,重新格式化結果。這項組合可確保擷取的內容不僅準確,還能以結構化且連貫的方式呈現,因此適用於各種下游應用程式和分析。

前往 Mistral OCR (25.05) 模型資訊卡

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) 具備多模態功能,脈絡最多可達 128,000 個。與先前的 Mistral AI Small 模型相比,這款模型可處理及理解視覺輸入內容和長篇文件,應用範圍更廣。Mistral Small 3.1 (25.03) 是一款多功能模型,適用於程式設計、數學推理、文件解讀和對話等各種工作。Mistral Small 3.1 (25.03) 專為低延遲應用程式設計,與同等品質的模型相比,效率更勝一籌。

Mistral Small 3.1 (25.03) 經過完整的訓練後處理程序,可配合人類偏好和需求,因此適用於需要聊天或精確遵循指令的應用程式。

前往 Mistral Small 3.1 (25.03) 模型資訊卡

Mistral Large (24.11)

Mistral Large (24.11) 是 Mistral AI Large 模型的最新版本,推論和函式呼叫功能都更加完善。

  • 以代理程式為中心:提供一流的代理程式功能,內建函式呼叫和 JSON 輸出。
  • 支援多種語言:支援數十種語言,包括英文、法文、德文、西班牙文、義大利文、中文、日文、韓文、葡萄牙文、荷蘭文和波蘭文
  • 精通程式設計:接受過 80 多種程式設計語言的訓練,例如 Python、Java、C、C++、JavaScript 和 Bash。也接受過更具體的語言訓練,例如 Swift 和 Fortran
  • 進階推理:具備最先進的數學和推理能力。

前往 Mistral Large (24.11) 模型資訊卡

Codestral (25.01)

Codestral (25.01) 專為程式碼生成工作而設計,開發人員可透過共用的指令和完成 API 端點,編寫程式碼並與程式碼互動。Codestral (25.01) 不僅精通程式碼,還能以多種語言對話,因此軟體開發人員可以運用這項模型設計進階 AI 應用程式。

  • Codestral (25.01) 精通超過 80 種程式設計語言,包括 Python、Java、C、C++、JavaScript 和 Bash。在 Swift 和 Fortran 等更具體的語言中,這項模型也有優異表現。
  • Codestral (25.01) 可協助開發人員提高工作效率並減少錯誤:Codestral (25.01) 可完成程式碼編寫函式、編寫測試,以及使用填空機制完成任何部分程式碼。
  • Codestral (25.01) 只有 240 億個參數和 128,000 個內容視窗,卻在效能和延遲方面樹立新標準。

Codestral (25.01) 適用於下列用途:

  • 生成程式碼,並提供程式碼補全、建議和翻譯功能。
  • 在使用者定義的起點和終點之間新增程式碼,因此非常適合需要生成特定程式碼片段的工作。
  • 摘要說明程式碼。
  • 協助重構程式碼、修正錯誤及產生測試案例,藉此審查程式碼品質。

前往 Codestral (25.01) 模型資訊卡

使用 Mistral AI 模型

您可以使用 curl 指令,透過下列模型名稱將要求傳送至 Vertex AI 端點:

  • 如要使用 Mistral OCR (25.05),請使用 mistral-ocr-2505
  • 如要使用 Mistral Small 3.1 (25.03),請使用 mistral-small-2503
  • 如要使用 Mistral Large (24.11),請輸入 mistral-large-2411
  • 如要使用 Mistral Nemo,請輸入 mistral-nemo
  • 如要使用 Codestral (25.01),請輸入 codestral-2501

如要進一步瞭解如何使用 Mistral AI SDK,請參閱 Mistral AI Vertex AI 說明文件

事前準備

如要在 Vertex AI 中使用 Mistral AI 模型,請完成下列步驟。如要使用 Vertex AI,必須啟用 Vertex AI API (aiplatform.googleapis.com)。如果您已有啟用 Vertex AI API 的專案,可以改用該專案,不必建立新專案。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. 前往下列任一 Model Garden 模型資訊卡,然後按一下「啟用」
  9. 對 Mistral AI 模型發出串流呼叫

    下列範例會對 Mistral AI 模型發出串流呼叫。

    REST

    設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

    使用任何要求資料之前,請先替換以下項目:

    • LOCATION:支援 Mistral AI 模型的區域。
    • MODEL:您要使用的模型名稱。在要求主體中,排除 @ 模型版本號碼。
    • ROLE:與訊息相關聯的角色。您可以指定 userassistant。 第一則訊息必須使用 user 角色。模型會交替進行 userassistant 輪次。如果最後一則訊息使用 assistant 角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
    • STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應,設為 false 則可一次傳回回應。
    • CONTENTuserassistant 訊息的內容,例如文字。
    • MAX_OUTPUT_TOKENS: 回覆內可以生成的權杖數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。

      如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。

    HTTP 方法和網址:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    JSON 要求主體:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    如要傳送要求,請選擇以下其中一個選項:

    curl

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    您應該會收到類似如下的 JSON 回應。

    對 Mistral AI 模型發出一元呼叫

    以下範例會對 Mistral AI 模型進行一元呼叫。

    REST

    設定環境後,即可使用 REST 測試文字提示。下列範例會將要求傳送至發布商模型端點。

    使用任何要求資料之前,請先替換以下項目:

    • LOCATION:支援 Mistral AI 模型的區域。
    • MODEL:您要使用的模型名稱。在要求主體中,排除 @ 模型版本號碼。
    • ROLE:與訊息相關聯的角色。您可以指定 userassistant。 第一則訊息必須使用 user 角色。模型會交替進行 userassistant 輪次。如果最後一則訊息使用 assistant 角色,回應內容會立即接續該訊息的內容。您可以使用這項功能限制模型回覆的部分內容。
    • STREAM:布林值,用於指定是否要串流傳輸回應。串流回應可縮短使用者感受到的延遲時間。設為 true 可串流回應,設為 false 則可一次傳回回應。
    • CONTENTuserassistant 訊息的內容,例如文字。
    • MAX_OUTPUT_TOKENS: 回覆內可以生成的權杖數量上限。一個權杖約為 3.5 個字元。100 個符記約等於 60 到 80 個字。

      如要取得較短的回覆,請指定較低的值;如要取得可能較長的回覆,請調高此值。

    HTTP 方法和網址:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    JSON 要求主體:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    如要傳送要求,請選擇以下其中一個選項:

    curl

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    將要求主體儲存在名為 request.json 的檔案中,然後執行下列指令:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    您應該會收到類似如下的 JSON 回應。

    Mistral AI 模型區域供應情形和配額

    如果是 Mistral AI 模型,則模型可用的每個區域都適用配額。配額以每分鐘查詢次數 (QPM) 和每分鐘權杖數 (TPM) 為單位。TPM 包含輸入和輸出權杖。

    模型 區域 配額 脈絡長度
    Mistral OCR (25.05)
    us-central1
    • QPM:30
    • 每個要求頁數:1,000 (1 頁 = 100 萬個輸入權杖和 100 萬個輸出權杖)
    1,000 頁
    europe-west4
    • QPM:30
    • 每個要求頁數:1,000 (1 頁 = 100 萬個輸入權杖和 100 萬個輸出權杖)
    1,000 頁
    Mistral Small 3.1 (25.03)
    us-central1
    • 每分鐘查詢次數:60
    • TPM:200,000
    128,000
    europe-west4
    • 每分鐘查詢次數:60
    • TPM:200,000
    128,000
    Mistral Large (24.11)
    us-central1
    • 每分鐘查詢次數:60
    • TPM:400,000
    128,000
    europe-west4
    • 每分鐘查詢次數:60
    • TPM:400,000
    128,000
    Mistral Nemo
    us-central1
    • 每分鐘查詢次數:60
    • TPM:400,000
    128,000
    europe-west4
    • 每分鐘查詢次數:60
    • TPM:400,000
    128,000
    Codestral (25.01)
    us-central1
    • 每分鐘查詢次數:60
    • TPM:400,000
    32,000
    europe-west4
    • 每分鐘查詢次數:60
    • TPM:400,000
    32,000

    如要增加任何 Vertex AI 的生成式 AI 配額,可以透過 Google Cloud 控制台申請提高配額。如要進一步瞭解配額,請參閱「使用配額」。