Google モデル

Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。

Vertex AI のすべての AI モデルと API の詳細については、Model Garden で AI モデルを確認するをご覧ください。

Gemini モデル

次の表は、Gemini API で使用可能なモデルをまとめたものです。API の詳細については、Gemini API リファレンスをご覧ください。

Google Cloud コンソールでモデルを確認するには、Model Garden でモデルカードを選択します。

モデル 入力 出力 ユースケース モデルを試す
Gemini 1.5 Flash
テキスト、コード、画像、音声、動画、音声付き動画、PDF テキスト 大量の高品質で費用対効果の高いアプリを迅速かつ効率的に開発できます。 Gemini 1.5 Flash モデルを試す
Gemini 1.5 Pro
テキスト、コード、画像、音声、動画、音声付き動画、PDF テキスト テキスト レスポンスまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトをサポートします。
最大入力トークン数の上限までの長いコンテキストの理解をサポートします。
Gemini 1.5 Pro モデルを試す
Gemini 1.0 Pro
テキスト テキスト 幅広いテキストのみのタスクで最高のパフォーマンスを発揮するモデル。 Gemini 1.0 Pro モデルカードに移動する
Gemini 1.0 Pro Vision
テキスト、画像、音声、動画、音声付き動画、PDF テキスト 幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。 Gemini 1.0 Pro Vision モデルを試す

次の表に、各 Gemini モデルの詳細を示します。

Gemini 1.5 Flash

説明

大量の費用対効果の高いアプリケーション向けに設計されたマルチモーダル モデル。速度と効率性を実現し、品質を損なうことなく、迅速で低コストのアプリケーションを構築できます。

機能

能力 対象
グラウンディング はい(テキスト入力のみ)
チューニング
システム命令 はい。システム指示を使用するをご覧ください。
JSONに対応
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン: 1,048,576
最大出力トークン: 8,192
未加工画像の最大サイズ: 20 MB
base64 エンコード画像の最大サイズ: 7 MB
プロンプトあたりの最大画像数: 3,000
動画の長さの上限: 1 時間
プロンプトあたりの動画の最大数: 10
音声の最大長: 約 8.4 時間
プロンプトあたりの最大音声: 1
PDF の最大サイズ: 30 MB
トレーニング データ: 2024 年 5 月まで

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

安定版

Gemini 1.5 Flash モデル リリース日 廃止日 モデル バージョンのハイライト
gemini-1.5-flash-002 2024 年 9 月 24 日 2025 年 9 月 24 日 一般的なモデルの品質が向上し、次のカテゴリで大幅な改善が見られました。
  • 事実性とモデルのハルシネーションを低減する。
  • RAG のユースケースに関する Openbook Q&A。
  • 指示の実行。
  • 102 の言語(韓国語、フランス語、ドイツ語、スペイン語、日本語、ロシア語、中国語など)の多言語理解。
  • SQL の生成。
  • 音声理解。
  • ドキュメントの理解。
  • 長いコンテキスト。
  • 算数と推論。

Gemini 1.5 Flash 002 は動的共有割り当てを使用します。

プロンプトが別の言語で記述されている場合でも、gemini-1.5-flash-002 がローカル言語で応答することがあります。この問題は、英語以外のプロンプトにのみ適用されます。この問題を軽減するには、システムの手順に次の行を追加して、モデルがプロンプトと同じ言語で応答するようにすることをおすすめします。

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-flash-001 2024 年 5 月 24 日 2025 年 5 月 24 日 Gemini 1.5 Flash の初期バージョン。

プレビュー バージョン

モデル名 プレビュー名 廃止日
Gemini 1.5 Flash(プレビュー) gemini-1.5-flash-preview-0514 2024 年 6 月 24 日

Gemini 1.5 Pro

説明

テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。このモデルは、最大入力トークン数の上限まで長いコンテキストの理解をサポートします。

機能

能力 対象
グラウンディング はい(テキスト入力のみ)
チューニング
システム命令 はい。システム指示を使用するをご覧ください。
JSONに対応
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン: 2,097,152
最大出力トークン: 8,192
プロンプトあたりの最大画像数: 3,000
動画の長さの上限(フレームのみ): 約 1 時間
動画の最大長(フレームと音声): 約 45 分
プロンプトあたりの動画の最大数: 10
音声の最大長: 約 8.4 時間
プロンプトあたりの最大音声: 1
PDF の最大サイズ: 30 MB
トレーニング データ: 2024 年 5 月まで

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

安定版

Gemini 1.5 Pro モデル リリース日 廃止日 モデル バージョンのハイライト
gemini-1.5-pro-002 2024 年 9 月 24 日 2025 年 9 月 24 日 一般的なモデルの品質が向上し、次のカテゴリで大幅な改善が見られました。
  • 事実性とモデルのハルシネーションを低減する。
  • RAG のユースケースに関する Openbook Q&A。
  • 指示の実行。
  • 102 の言語(韓国語、フランス語、ドイツ語、スペイン語、日本語、ロシア語、中国語など)の多言語理解。
  • SQL の生成。
  • 音声理解。
  • ドキュメントの理解。
  • 長いコンテキスト。
  • 算数と推論。

Gemini 1.5 Pro 002 は動的共有割り当てを使用します。

プロンプトが別の言語で記述されている場合でも、gemini-1.5-pro-002 がローカル言語で応答することがあります。この問題は、英語以外のプロンプトにのみ適用されます。この問題を軽減するには、システムの手順に次の行を追加して、モデルがプロンプトと同じ言語で応答するようにすることをおすすめします。

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-pro-001 2024 年 5 月 24 日 2025 年 5 月 24 日 Gemini 1.5 Pro の初期バージョン。

プレビュー バージョン

モデル名 モデル ID 廃止日
Gemini 1.5 Pro(プレビュー) gemini-1.5-pro-preview-0514 2024 年 6 月 24 日
Gemini 1.5 Pro(プレビュー) gemini-1.5-pro-preview-0409gemini-1.5-pro-preview-0514 を指して使用) 2024 年 6 月 14 日

Gemini 1.0 Pro

説明

幅広いテキストのみのタスク向けの特徴を持つ、パフォーマンスが最も優れたモデル。このモデルは、入力としてテキストのみをサポートしています。

機能

能力 対象
グラウンディング はい(テキスト入力のみ)
チューニング はい。教師ありチューニングは gemini-1.0-pro-002 でサポートされています。
システム命令 はい。gemini-1.0-pro-002 でサポートされています。システム指示を使用するをご覧ください。
JSONに対応
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン: 32,760
最大出力トークン: 8,192
トレーニング データ: 2023 年 2 月まで

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

安定版

Gemini 1.0 Pro モデル リリース日 廃止日
gemini-1.0-pro-001 2024 年 2 月 15 日 2025 年 4 月 9 日
gemini-1.0-pro-002 2024 年 4 月 9 日 2025 年 4 月 9 日

自動更新バージョン

モデル名 自動更新された名前 対応する安定版
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

説明

幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。Gemini 1.0 Pro Vision は、テキスト、画像、動画を入力としてサポートしています。

機能

能力 対象
グラウンディング ×
チューニング ×
システム命令 ×
JSONに対応 ×
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン: 16,384
最大出力トークン: 2,048
プロンプトあたりの最大画像数: 16
動画の長さの上限: 2 分
プロンプトあたりの動画の最大数: 1
トレーニング データ: 2023 年 2 月まで

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

安定版

Gemini 1.0 Pro Vision モデル リリース日 廃止日
gemini-1.0-pro-vision-001 2024 年 2 月 15 日 2025 年 4 月 9 日

自動更新エイリアス

モデル名 自動更新された名前 対応する安定版
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

説明

Google の最も高性能なテキストモデル。指示、コード、推論などの複雑なタスク向けに最適化されています。Gemini 1.0 Ultra は、入力としてテキストのみをサポートしています。

機能

能力 対象
グラウンディング ×
チューニング ×
システム命令 ×
JSONに対応 ×
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大トークン入力: 8,192
最大出力トークン: 2,048

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

Gemini 1.0 Ultra Vision

説明

Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画の共同入力をサポートするように最適化されています。

機能

能力 対象
グラウンディング ×
チューニング ×
システム命令 ×
JSONに対応 ×
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大トークン入力: 8,192
最大出力トークン: 2,048

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

Gemini の言語サポート

  • すべての Gemini モデルは、次の言語を理解して応答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加の言語を理解して回答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディーベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

Gemma モデル

次の表に、Gemma モデルの概要を示します。

モデル 入力 出力 ユースケース モデルを試す
Gemma
モデルの詳細
テキスト テキスト テキストの生成、要約、抽出をサポートする、小型で軽量なオープンテキスト モデル。リソースが限られている環境にデプロイできます。 Gemma を試す
CodeGemma
モデルの詳細
テキスト、コード、PDF テキスト Gemma 上に構築された軽量のオープンコードモデルのコレクション。コードの生成と補完に最適。 CodeGemma を試す
PaliGemma
モデルの詳細
テキスト、画像 テキスト 軽量のビジョン言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma を試す

Gemma の言語サポート

Gemma は英語のみをサポートしています。

エンベディング モデル

次の表に、Embeddings API で使用可能なモデルをまとめます。

モデル名 説明 仕様 モデルを試す
テキスト用エンベディング
textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004

モデルの詳細
英語のテキスト入力のエンベディングを返します。

テキスト用エンベディングモデルの教師ありチューニングをサポート(英語のみ)。
最大トークン入力: 3,072(textembedding-gecko@001)。
その他: 2,048。

エンベディング ディメンション: text-embedding-004: 768 以下。
その他: 768。
テキスト用エンベディングを試す
多言語テキストのエンベディング
textembedding-gecko-multilingual@001
text-multilingual-embedding-002
モデルの詳細
100 を超える言語のテキスト入力のエンベディングを返します。

text-multilingual-embedding-002 モデルの教師ありチューニングをサポートしています。
は 100 の言語をサポートしています。
最大トークン入力: 2,048。

エンベディング ディメンション: text-multilingual-embedding-002: 768 以下。
その他: 768。
多言語テキストのエンベディングを試す
マルチモーダルのエンベディング
(multimodalembedding)
モデルの詳細
テキスト、画像、動画の入力のエンベディングを返して、さまざまなモデル間でコンテンツを比較します。

テキスト、画像、動画を同じベクトル空間に変換します。動画では 1,408 個のディメンションのみがサポートされます。
英語のみ
最大トークン入力: 32。
最大画像サイズ: 20 MB。
動画の長さの上限: 2 分。

エンベディング ディメンション: テキストと画像の入力の場合は 128、256、512、1,408、動画の入力の場合は 1,408。
マルチモーダルのエンベディングを試す

エンベディング言語のサポート

テキスト多言語エンベディング モデルは、次の言語をサポートしています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼリー語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタロニア語、セブアノ語、チチェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語クレオール語、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モンゴル語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。

Imagen モデル

次の表は、Imagen API で使用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
Imagen
imagen-3.0-generate-001imagen-3.0-fast-generate-001imagegeneration@006imagegeneration@005imagegeneration@002
モデルの詳細
テキスト(生成)、画像(編集) 画像 このモデルは画像の生成と編集をサポートし、高品質の画像を数秒で作成できます。

編集機能は、オブジェクトの削除と挿入、アウトペインティング、商品の編集をサポートしています。
Imagen を試す

Imagen 3 の言語サポート

Imagen 3 は、英語、中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語に対応しています。

コード補完モデル

次の表は、Codey API で利用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
コード補完用の Codey
code-gecko
モデルの詳細
サポートされている言語でコードを記述する サポートされている言語でコードを記述する 記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 コード補完用の Codey を試す

コード補完モデルの言語サポート

コード補完モデルは英語をサポートしています。

MedLM モデル

次の表は、MedLM API で使用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
MedLM-mediummedlm-medium
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。medlm-large モデルよりもスループットが高く、より新しいデータが含まれています。
最大トークン(入力 + 出力): 32,768。
最大出力トークン: 8,192。
MedLM-medium を試す
MedLM-largemedlm-large
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。
最大入力トークン: 8,192。
最大出力トークン: 1,024。
MedLM-large を試す

MedLM プロビジョニングされたスループットのサポート

MedLM-medium と MedLM-large はプロビジョニングされたスループットをサポートしています。サポートされているモデルをご覧ください。

MedLM の言語サポート

MedLM モデルは英語をサポートしています。

場所

これらのモデルを利用できるロケーションの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

Model Garden でモデルを探索する

Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。

Model Garden に移動

使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。

次のステップ