Google モデル

Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。

Vertex AI のすべての AI モデルと API の詳細については、Model Garden で AI モデルを確認するをご覧ください。

Gemini モデル

次の表は、Gemini API で使用可能なモデルをまとめたものです。API の詳細については、Gemini API リファレンスをご覧ください。

Google Cloud コンソールでモデルを確認するには、Model Garden でモデルカードを選択します。

モデル 入力 出力 ユースケース モデルを試す
Gemini 2.0 Flash
gemini-2.0-flash
テキスト、コード、画像、音声、動画、音声付きの動画、PDF テキスト、音声(限定公開プレビュー)、画像(限定公開プレビュー) 日常のあらゆるタスクに役立つモデル。全体的なパフォーマンスが優れており、リアルタイム ストリーミングの Live API をサポートします。 Gemini 2.0 Flash を試す
Gemini 2.5 Pro 試験運用版
gemini-2.5-pro-exp-03-25
テキスト、画像、動画、音声、PDF テキスト マルチモーダル理解、コーディング、世界中の知識に特に優れた、最も高度な推論 Gemini モデル。 Gemini 2.5 Pro 試験運用版を試す
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
テキスト、画像、動画、音声、PDF テキスト 高スループットをサポートする費用対効果に優れたサービス。 Gemini 2.0 Flash-Lite を試す
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
テキスト、画像 テキスト 推論機能が強化されており、回答に思考プロセスが含まれます。 Gemini 2.0 Flash Thinking を試す

以下に、各 Gemini モデルの詳細を示します。

次世代の Gemini Flash モデル。Gemini 2.0 Flash は、1.5 モデルよりも優れた速度を提供し、Multimodal Live API による双方向ストリーミング、マルチモーダルの回答の生成、組み込みツールの使用など、幅広い機能をサポートします。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.5 Pro(試験運用版)は、マルチモーダル理解、コーディング、世界中の知識を扱う非常に優れたモデルです。200 万トークンの長いコンテキスト ウィンドウを備えています。Gemini 2.5 Pro 試験運用版は Vertex AI で試験運用版モデルとして利用できます。品質の向上を求めている 1.5 Pro ユーザーや、長いコンテキストとコードに重点を置いている 1.5 Pro ユーザー向けのアップグレード パスです。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,000,000
最大出力トークン 64,000
トレーニング データ 2025 年 1 月まで

Gemini 2.0 Flash-Lite は、Google 史上最も高速で費用対効果に優れた Flash モデルです。価格と速度はそのままに品質の向上を求めている 1.5 Flash ユーザー向けのアップグレード パスです。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 8,192
トレーニング データ 2025 年 1 月まで

Gemini 2.0 Flash Thinking は、モデルが行う「思考プロセス」を回答の一部として生成するようにトレーニングされた試験運用版のテスト時計算モデルです。そのため、Flash Thinking は、ベースの Gemini 2.0 Flash モデルよりも回答の推論能力が強化されています。詳細については、Gemini 2.0 Flash Thinking のドキュメントをご覧ください。

機能

機能 可用性
Google 検索によるグラウンディング
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 65,536
トレーニング データ 2024 年 5 月まで

Gemini の言語サポート

  • すべての Gemini モデルは、次の言語を理解して回答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 2.0 Flash、Gemini 1.5 Pro、Gemini 1.5 Flash モデルは、次の追加の言語を理解して回答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼルバイジャン語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタルーニャ語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モン語(hmn)、クレオール語(ハイチ)(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、ジョージア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオ語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チェワ語)(ny)、オディア語(オリヤー語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、ソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥー語(ur)、ウズベク語(uz)、コーサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

Gemma モデル

次の表に、Gemma モデルの概要を示します。

モデル 入力 出力 ユースケース モデルを試す
Gemma 3
モデルの詳細
テキスト、画像 テキスト 質問応答、要約、推論などのテキスト生成タスクと画像理解タスクをサポートする、小型で軽量なオープンモデル。リソースが限られている環境にデプロイできます。 Gemma 3 を試す
Gemma 2
モデルの詳細
テキスト テキスト テキストの生成、要約、抽出をサポートし、自由記述のテキストに対応する小型で軽量なモデル。リソースが限られている環境にデプロイできます。 Gemma 2 を試す
Gemma
モデルの詳細
テキスト テキスト テキストの生成、要約、抽出をサポートし、自由記述のテキストに対応する小型で軽量なモデル。リソースが限られている環境にデプロイできます。 Gemma を試す
CodeGemma
モデルの詳細
テキスト、コード、PDF テキスト Gemma を基盤とし、自由記述のコードに対応する軽量モデルのコレクション。コードの生成と補完に最適。 CodeGemma を試す
PaliGemma 2
モデルの詳細
テキスト、画像 テキスト 軽量の視覚言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma 2 を試す
PaliGemma
モデルの詳細
テキスト、画像 テキスト 軽量の視覚言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma を試す
ShieldGemma 2
モデルの詳細
テキスト、画像 テキスト 合成画像と自然画像の安全性を確認して、堅牢なデータセットとモデルを構築できるようにする、軽量の視覚言語モデル(VLM)。 ShieldGemma 2 を試す

Gemma の言語サポート

Gemma と Gemma 2 は英語のみをサポートしています。Gemma 3 は 140 を超える言語に対応しています。

エンベディング モデル

次の表は、Embeddings API で利用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
テキスト用エンベディング
text-embedding-004,
text-embedding-005

モデルの詳細
英語のテキスト入力のエンベディングを返します。

テキスト用エンベディング モデルの教師ありチューニングをサポートします(英語のみ)。
最大トークン入力: 2,048。

エンベディング次元数: text-embedding-004, text-embedding-005: 768 以下。
その他: 768。
テキスト用エンベディングを試す
多言語テキスト用エンベディング
text-multilingual-embedding-002
モデルの詳細
100 を超える言語のテキスト入力のエンベディングを返します。

text-multilingual-embedding-002 モデルの教師ありチューニングをサポートします。
100 の言語をサポートしています。
最大トークン入力: 2,048。

エンベディング次元数: text-multilingual-embedding-002: 768 以下。
その他: 768。
多言語テキスト用エンベディングを試す
マルチモーダル用エンベディング
(multimodalembedding)
モデルの詳細
テキスト、画像、動画入力のエンベディングを返して、さまざまなモデル間でコンテンツを比較します。

テキスト、画像、動画を同じベクトル空間に変換します。動画では 1,408 個の次元のみがサポートされます。
英語のみ。
最大トークン入力: 32。
最大画像サイズ: 20 MB。
動画の最大長: 2 分。

エンベディング次元数: テキストと画像入力の場合は 128、256、512、1,408、動画入力の場合は 1,408。
マルチモーダル用エンベディングを試す
テキスト用エンベディング(英語、多言語、コード)
text-embedding-large-exp-03-07
モデルの詳細
100 を超える言語のテキスト入力のエンベディングと、Python コードと Java コードを返します。

これは試験運用版モデルです。試験運用版モデルは、Google の標準のモデル ライフサイクル計画とバージョニング スキームに準拠していません。また、事前の通知なく、別のモデルと置き換わる可能性があります。試験運用版モデルは、将来的に安定版モデルになるとは限りません。
最大トークン入力: 8,192

エンベディング次元数: 3,072
大規模なテキスト用エンベディングを試す

エンベディング言語のサポート

多言語テキストのエンベディング モデルは、次の言語をサポートしています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタルーニャ語、セブアノ語、チェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、ジョージア語、ドイツ語、ギリシャ語、グジャラート語、クレオール語(ハイチ)、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モン語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。

Imagen モデル

次の表は、Imagen API で使用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
Imagen 3
imagen-3.0-generate-001imagen-3.0-fast-generate-001

Imagen 2
imagegeneration@006imagegeneration@005

Imagen
imagegeneration@002
モデルの詳細
テキスト 画像 このモデルは画像の生成と編集をサポートし、高品質の画像を数秒で作成できます。これには、ゼロショット学習を使用した画像生成が含まれます。 画像生成用の Imagen を試す
Imagen 3(編集とカスタマイズ)
imagen-3.0-capability-001

Imagen 2(編集)
imagegeneration@006

Imagen(編集)
imagegeneration@002
モデルの詳細
テキストと画像 画像 このモデルは、画像編集とカスタマイズされた(少数ショット)画像生成をサポートし、高品質の画像を数秒で作成できます。

編集機能は、インペイント(オブジェクトの削除または挿入)、アウトペイント、商品画像の編集をサポートします。

カスタマイズでは少数ショット学習がサポートされており、出力画像の生成をガイドする参照画像を与えることができます。このモデルは、カスタマイズのタイプとして、被写体のカスタマイズ(商品、人物、ペット)、スタイルのカスタマイズ、制御されたカスタマイズ(フリーハンドまたは Canny エッジ)、カスタマイズの指示(スタイル転送)をサポートします。
編集とカスタマイズ用の Imagen を試す

Imagen 3 の言語サポート

Imagen 3 は、次の言語をサポートしています。
英語、中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語。

コード補完モデル

次の表は、Codey API で利用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
コード補完用の Codey
code-gecko
モデルの詳細
サポートされている言語のコード サポートされている言語のコード 記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 コード補完用の Codey を試す

コード補完モデルの言語サポート

コード補完モデルは英語をサポートしています。

MedLM モデル

次の表は、MedLM API で利用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
MedLM-mediummedlm-medium
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスクや、ヘルスケア文書と医療文書の要約タスクを行う際に役立ちます。medlm-large モデルよりもスループットが高く、より新しいデータが含まれています。
最大トークン(入力 + 出力): 32,768。
最大出力トークン: 8,192。
MedLM-medium を試す
MedLM-largemedlm-large
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスクや、ヘルスケア文書と医療文書の要約タスクを行う際に役立ちます。
最大入力トークン: 8,192。
最大出力トークン: 1,024。
MedLM-large を試す

MedLM でのプロビジョンド スループットのサポート

MedLM-medium と MedLM-large はプロビジョンド スループットをサポートします。サポートされているモデルをご覧ください。

MedLM の言語サポート

MedLM モデルは英語をサポートしています。

ロケーション

これらのモデルを利用できるロケーションの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。

モデル バージョン

モデル バージョンの詳細については、モデルのバージョンをご覧ください。

Model Garden でモデルを確認する

Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。

Model Garden に移動

使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。

次のステップ