このページは Cloud Translation API によって翻訳されました。

Mistral AI モデル

Vertex AI の Mistral AI モデルは、API としてフルマネージドモデルとサーバーレスモデルを提供します。Vertex AI で Mistral AI モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Mistral AI モデルはマネージド API を使用します。インフラストラクチャをプロビジョニングしたり、管理する必要はありません。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。ストリーミングレスポンスでは、サーバー送信イベント（SSE）を使用してレスポンスを段階的にストリーミングします。

Mistral AI モデルは従量課金制です。従量課金制の料金については、Vertex AI の料金ページで Mistral AI モデルの料金をご覧ください。

利用可能な Mistral AI モデル

Vertex AI で使用できる Mistral AI のモデルは次のとおりです。Mistral AI モデルにアクセスするには、Model Garden のモデルカードに移動します。

Mistral OCR（25.05）

Mistral OCR（25.05）は、ドキュメント理解のための光学式文字認識 API です。Mistral OCR（25.05）は、インターリーブされた画像、数式、表、LaTeX 形式などの高度なレイアウトを含む、複雑なドキュメント要素の理解に優れています。このモデルにより、チャート、グラフ、方程式、図を含む科学論文などのリッチドキュメントをより深く理解できます。

Mistral OCR（25.05）は、マルチモーダルドキュメント（スライドや複雑な PDF など）を入力として受け取る RAG システムと組み合わせて使用するのに最適なモデルです。

Mistral OCR（25.05）を他の Mistral モデルと組み合わせて、結果の形式を変更できます。この組み合わせにより、抽出されたコンテンツは正確であるだけでなく、構造化された一貫性のある方法で提示されるため、さまざまなダウンストリームアプリケーションや分析に適しています。

Mistral OCR（25.05）モデルカードに移動

Mistral Small 3.1（25.03）

Mistral Small 3.1（25.03）は、マルチモーダル機能と最大 128,000 のコンテキストを備えています。このモデルは、視覚的な入力や長いドキュメントを処理して理解できるため、以前の Mistral AI Small モデルと比較して、アプリケーションの範囲がさらに広がります。Mistral Small 3.1（25.03）は、プログラミング、数学的推論、ドキュメントの理解、対話など、さまざまなタスク向けに設計された汎用モデルです。Mistral Small 3.1（25.03）は、低レイテンシアプリケーション向けに設計されており、同じ品質のモデルと比較して最高水準の効率を実現します。

Mistral Small 3.1（25.03）は、モデルを人間の好みやニーズに合わせるための完全なポストトレーニングプロセスを経ており、チャットや正確な指示の実行を必要とするアプリケーションですぐに使用できます。

Mistral Small 3.1（25.03）モデルカードに移動

Mistral Large（24.11）

Mistral Large（24.11）は、推論機能と関数呼び出し機能が強化された Mistral AI の Large モデルの最新バージョンです。

エージェント中心: 組み込み関数呼び出しと JSON 出力による最高水準のエージェント機能。
多言語対応設計: 英語、フランス語、ドイツ語、スペイン語、イタリア語、中国語、日本語、韓国語、ポルトガル語、オランダ語、ポーランド語など、多数の言語に対応しています。
コーディングに精通: Python、Java、C、C++、JavaScript、Bash など、80 を超えるコーディング言語でトレーニングされています。Swift や Fortran などの言語でもトレーニングされています
高度な推論: 最先端の数学的能力と推論能力を備えています。

Mistral Large（24.11）モデルカードに移動

Codestral（25.01）

Codestral（25.01）は、コード生成タスク向けに設計されています。Codestral を使用することで、デベロッパーは共有された指示と補完の API エンドポイントを通じたコードの記述と操作が可能になります。Codestral（25.01）は、コードの習得と多言語での対話能力を備えているため、ソフトウェアデベロッパー向けに高度な AI アプリケーションを設計する際に利用できます。

Codestral（25.01）は、Python、Java、C、C++、JavaScript、Bash など、80 を超えるプログラミング言語に精通しています。Swift や Fortran などのより特定の言語でも優れたパフォーマンスを発揮します。
Codestral（25.01）は、デベロッパーの生産性を向上させ、エラーの削減に役立ちます。Codestral（25.01）は、コーディング関数の補完、テストの作成、そして Fill-in-the-Middle メカニズムを活用した部分的なコードの補完を実現します。
Codestral（25.01）は、240 億のパラメータと 128,000 のコンテキストウィンドウのみで、パフォーマンスとレイテンシの領域における新しい標準を提供します。

Codestral（25.01）は、次のユースケース向けに最適化されています。

コードを生成して、コード補完、候補の提示、翻訳を提供します。
ユーザー定義の開始ポイントと終了ポイントの間にコードを追加します。特定のコードを生成する必要があるタスクに最適です。
コードを要約し、説明します。
コードをリファクタリングし、バグを修正してテストケースを生成することで、コードの品質を確認します。

Codestral（25.01）モデルカードに移動

Mistral AI モデルを使用する

curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。

Mistral OCR（25.05）の場合は、mistral-ocr-2505 を使用します。
Mistral Small 3.1（25.03）の場合は、mistral-small-2503 を使用します。
Mistral Large（24.11）の場合は、mistral-large-2411 を使用します。
Mistral Nemo の場合は mistral-nemo を使用します。
Codestral（25.01）の場合は codestral-2501 を使用します。

Mistral AI SDK の使用方法については、Mistral AI Vertex AI のドキュメントをご覧ください。

始める前に

Vertex AI で Mistral AI モデルを使用するには、次の操作を行う必要があります。Vertex AI を使用するには、Vertex AI API（aiplatform.googleapis.com）を有効にする必要があります。既存のプロジェクトで Vertex AI API が有効になっている場合は、新しいプロジェクトを作成する代わりに、そのプロジェクトを使用できます。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

次のいずれかの Model Garden モデルカードに移動し、[有効にする] をクリックします。

Mistral AI モデルにストリーミング呼び出しを行う

次のサンプルでは、Mistral AI モデルへのストリーミング呼び出しを行います。

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION: Mistral AI モデルをサポートするリージョン。
MODEL: 使用するモデル名。リクエスト本文で、@ モデルのバージョン番号を除外します。
ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは user と assistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンスコンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。
STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
CONTENT: user または assistant のメッセージの内容（テキストなど）。
MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60～80 語に相当します。
回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。

HTTP メソッドと URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

リクエストの本文（JSON）:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Mistral AI モデルに単一呼び出しを行う

次のサンプルでは、Mistral AI モデルへの単一呼び出しを行います。

REST

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION: Mistral AI モデルをサポートするリージョン。
MODEL: 使用するモデル名。リクエスト本文で、@ モデルのバージョン番号を除外します。
ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは user と assistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンスコンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。
STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
CONTENT: user または assistant のメッセージの内容（テキストなど）。
MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60～80 語に相当します。
回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。

HTTP メソッドと URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

リクエストの本文（JSON）:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Mistral AI モデルで利用可能なリージョンと割り当て

Mistral AI モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数（QPM）と 1 分あたりのトークン数（TPM）で指定されます。TPM には、入力トークンと出力トークンの両方が含まれます。

モデル	地域	割り当て	コンテキストの長さ
Mistral OCR（25.05）
	`us-central1`	QPM: 30 リクエストあたりのページ数: 1,000（1 ページ = 100 万個の入力トークンと 100 万個の出力トークン）	1,000 ページ
	`europe-west4`	QPM: 30 リクエストあたりのページ数: 1,000（1 ページ = 100 万個の入力トークンと 100 万個の出力トークン）	1,000 ページ
Mistral Small 3.1（25.03）
	`us-central1`	QPM: 60 TPM: 200,000	128,000
	`europe-west4`	QPM: 60 TPM: 200,000	128,000
Mistral Large（24.11）
	`us-central1`	QPM: 60 TPM: 400,000	128,000
	`europe-west4`	QPM: 60 TPM: 400,000	128,000
Mistral Nemo
	`us-central1`	QPM: 60 TPM: 400,000	128,000
	`europe-west4`	QPM: 60 TPM: 400,000	128,000
Codestral（25.01）
	`us-central1`	QPM: 60 TPM: 400,000	32,000
	`europe-west4`	QPM: 60 TPM: 400,000	32,000

Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールを使用して割り当ての引き上げをリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。

Mistral AI モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

利用可能な Mistral AI モデル

Mistral OCR（25.05）

Mistral Small 3.1（25.03）

Mistral Large（24.11）

Codestral（25.01）

Mistral AI モデルを使用する

始める前に

Mistral AI モデルにストリーミング呼び出しを行う

REST

curl

PowerShell

レスポンス

Mistral AI モデルに単一呼び出しを行う

REST

curl

PowerShell

レスポンス

Mistral AI モデルで利用可能なリージョンと割り当て

Mistral AI モデル