此页面由 Cloud Translation API 翻译。

Mistral AI 模型

Vertex AI 上的 Mistral AI 模型以 API 形式提供全代管式无服务器模型。如需使用 Vertex AI 上的 Mistral AI 模型，请直接向 Vertex AI API 端点发送请求。由于 Mistral AI 模型使用托管式 API，因此无需预配或管理基础架构。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

Mistral AI 模型按实际用量付费（随用随付）。如需了解随用随付价格，请参阅 Vertex AI 价格页面上的 Mistral AI 模型价格。

可用的 Mistral AI 模型

Mistral AI 提供了以下模型，可在 Vertex AI 中使用。如需访问 Mistral AI 模型，请前往其 Model Garden 模型卡片。

Mistral OCR (25.05)

Mistral OCR (25.05) 是一款用于文档理解的光学字符识别 API。Mistral OCR (25.05) 擅长理解复杂的文档元素，包括交错的图像、数学表达式、表格和高级布局（例如 LaTeX 格式）。该模型能够更深入地理解包含图表、图形、方程式和图形的科学论文等丰富文档。

Mistral OCR (25.05) 是一款理想的模型，可与将多模态文档（例如幻灯片或复杂的 PDF）作为输入的 RAG 系统搭配使用。

您可以将 Mistral OCR (25.05) 与其他 Mistral 模型搭配使用，以重新设置结果格式。这种组合可确保提取的内容不仅准确，而且以结构化且连贯的方式呈现，从而适用于各种下游应用和分析。

前往 Mistral OCR (25.05) 模型卡片

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) 具有多模态功能，上下文长度可达 128,000。与之前的 Mistral AI Small 模型相比，该模型可以处理和理解视觉输入内容和长文档，从而进一步扩大其应用范围。Mistral Small 3.1 (25.03) 是一款多功能模型，旨在处理各种任务，例如编程、数学推理、文档理解和对话。Mistral Small 3.1 (25.03) 专为低延迟应用而设计，与同等质量的模型相比，可提供一流的效率。

Mistral Small 3.1 (25.03) 经过了完整的后训练流程，可将模型与人类偏好和需求保持一致，因此可直接用于需要聊天或精确遵循指令的应用。

前往 Mistral Small 3.1 (25.03) 模型卡片

Mistral Large (24.11)

Mistral Large (24.11) 是 Mistral AI 大模型的最新版本，其中的推理和函数调用功能得到了改进。

以代理为中心：具有内置函数调用和 JSON 输出的一流智能体功能。
设计时考虑到多语言支持：支持数十种语言，包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语
精通编码：针对 80 多种编码语言进行了训练，例如 Python、Java、C、C++、JavaScript 和 Bash。此外，还针对更具体的语言（例如 Swift 和 Fortran）进行了训练
高级推理：领先的数学和推理功能。

前往 Mistral Large (24.11) 模型卡片

Codestral (25.01)

Codestral (25.01) 专为代码生成任务而设计。该模型可以通过共享指令和补全 API 端点帮助开发者编写代码并与之交互。由于它掌握代码并能够用多种语言进行对话，您可以使用 Codestral (25.01) 为软件开发者设计高级 AI 应用。

Codestral (25.01) 精通 80 多种编程语言，包括 Python、Java、C、C++、JavaScript 和 Bash。它还能很好地处理更具体的语言，例如 Swift 和 Fortran。
Codestral (25.01) 有助于提高开发者的效率并减少错误：Codestral (25.01) 可以完成编码函数、编写测试，并使用中间填充机制完成任何部分代码。
Codestral (25.01) 提供了一个新的性能和延迟时间标准，仅包含 24B 参数和 128,000 个上下文窗口。

Codestral (25.01) 针对以下应用场景进行了优化：

生成代码，并提供代码补全、建议和转换。
在用户定义的起点和终点之间添加代码，非常适合需要生成特定代码的任务。
对代码进行摘要和说明。
通过帮助重构代码、修复 bug 和生成测试用例来检查代码的质量。

前往 Codestral (25.01) 模型卡片

使用 Mistral AI 模型

您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求：

对于 Mistral OCR (25.05)，请使用 mistral-ocr-2505
对于 Mistral Small 3.1 (25.03)，请使用 mistral-small-2503
对于 Mistral Large (24.11)，请使用 mistral-large-2411
对于 Mistral Nemo，请使用 mistral-nemo
对于 Codestral (25.01)，请使用 codestral-2501

如需详细了解如何使用 Mistral AI SDK，请参阅 Mistral AI Vertex AI 文档。

准备工作

如需将 Mistral AI 模型与 Vertex AI 搭配使用，您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目，则可以使用该项目，而无需创建新项目。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

前往以下 Model Garden 模型卡片之一，然后点击启用：

对 Mistral AI 模型进行流式调用

以下示例对 Mistral AI 模型进行流式调用。

REST

设置您的环境后，您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。

在使用任何请求数据之前，请先进行以下替换：

LOCATION：支持 Mistral AI 模型的区域。
MODEL：您要使用的模型名称。在请求正文中，不包括 @ 模型版本号。
ROLE：与消息关联的角色。您可以指定 user 或 assistant。第一条消息必须使用 user 角色。模型使用交替的 user 和 assistant 回合运行。如果最终消息使用 assistant 角色，则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。
STREAM：一个布尔值，用于指定是否流式传输回答。流式传输您的回答，以降低对最终使用延迟的感知度。设置为 true 可流式传输回答，设置为 false 可一次性返回所有回答。
CONTENT：user 或 assistant 消息的内容（如文本）。
MAX_OUTPUT_TOKENS：响应中可生成的词元数量上限。一个词元约为　3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答，指定较高的值可获得可能较长的回答。

HTTP 方法和网址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

请求 JSON 正文：

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

如需发送请求，请选择以下方式之一：

curl

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应。

响应

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

对 Mistral AI 模型进行一元调用

以下示例对 Mistral AI 模型进行一元调用。

REST

设置您的环境后，您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。

在使用任何请求数据之前，请先进行以下替换：

LOCATION：支持 Mistral AI 模型的区域。
MODEL：您要使用的模型名称。在请求正文中，不包括 @ 模型版本号。
ROLE：与消息关联的角色。您可以指定 user 或 assistant。第一条消息必须使用 user 角色。模型使用交替的 user 和 assistant 回合运行。如果最终消息使用 assistant 角色，则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。
STREAM：一个布尔值，用于指定是否流式传输回答。流式传输您的回答，以降低对最终使用延迟的感知度。设置为 true 可流式传输回答，设置为 false 可一次性返回所有回答。
CONTENT：user 或 assistant 消息的内容（如文本）。
MAX_OUTPUT_TOKENS：响应中可生成的词元数量上限。一个词元约为　3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答，指定较高的值可获得可能较长的回答。

HTTP 方法和网址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

请求 JSON 正文：

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

如需发送请求，请选择以下方式之一：

curl

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应。

响应

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}