このページは Cloud Translation API によって翻訳されました。

Model Garden でサポートされているモデル

Google の自社モデルのリスト

次の表に、Model Garden で利用できる Google の自社モデルを示します。

モデル名	モダリティ	説明	クイックスタート
Gemini 2.5 Flash（プレビュー）	言語、音声、ビジョン	価格とパフォーマンスのバランスを取るように設計された思考モデル。	モデルカード
Gemini 2.5 Pro（プレビュー）	言語、音声、ビジョン	次世代の機能と改善された機能を備えた思考モデル。	モデルカード
Gemini 2.0 Flash	言語、音声、ビジョン	あらゆる日常業務に使用できる主力モデルで、パフォーマンスが向上し、リアルタイムの Live API をサポートしています。	モデルカード
Gemini 2.0 Flash-Lite	言語、音声、ビジョン	最も高速で費用対効果の高い Flash モデル。同じ価格とスピードで、1.5 よりも優れた品質を実現しています。	モデルカード
画像生成用の Imagen	ビジョン	テキストプロンプトを使用して、高品質な画像を大規模に作成できます。このモデルを使用して、画像をアップスケールすることもできます。	モデルカード
編集およびカスタマイズ用の Imagen	ビジョン	少数ショット学習を編集または使用し、ベース画像とテキストプロンプト、または参照画像とテキストプロンプトを使用して高品質な画像を大規模に作成できます。	モデルカード
Vertex 画像セグメンテーション（プレビュー）	ビジョン	テキストプロンプトを使用するか、フリーハンド機能で描画して画像をセグメント化します。画像セグメンテーションを使用すると、オブジェクトの検出、画像の背景の削除、画像の前景のセグメンテーションなどを行うことができます。	モデルカード
キャプションと VQA 用の Imagen	言語	指定された画像に関連する説明を生成します。	モデルカード
テキスト用エンベディング	言語	テキストに基づいてベクトルを生成します。このベクトルは、セマンティック検索、テキスト分類、感情分析などのダウンストリームタスクに使用できます。	モデルカード
マルチモーダルエンベディング	ビジョン	画像に基づいてベクトルを生成します。このベクトルは、画像分類や画像検索などのダウンストリームタスクに使用できます。	モデルカード
Chirp 2	スピーチ	「Chirp 2」は、Google が開発した、音声文字変換（Speech-to-Text）のための多言語自動音声認識（ASR）モデルです。初代 Chirp モデルと比較して、Chirp 2 では精度と速度が向上しており、単語レベルのタイムスタンプ、モデル適応、音声翻訳などの新機能が提供されます。	モデルカード

Model Garden で利用できるマネージドモデルのリスト

モデルは Vertex AI Model Garden でマネージド API（Model as a Service）として提供されます。

Model Garden で利用可能なパートナーモデル

次の表に、Model Garden で利用可能なパートナーモデルを示します。

モデル名	モダリティ	説明	クイックスタート
Claude 4.5 Sonnet	言語、ビジョン	コーディング、コンピュータの使用、サイバーセキュリティ、スプレッドシートなどのオフィスファイルの操作機能を備えた、現実世界のエージェントを強化する Anthropic の中規模モデル。	モデルカード
Claude Opus 4.1	言語、ビジョン	コーディングの業界リーダー。集中した作業と数千ものステップを必要とする長時間実行タスクで持続的なパフォーマンスを発揮し、AI エージェントが解決できる範囲を大幅に拡大します。フロンティアエージェントのプロダクトや機能の強化に最適です。	モデルカード
Claude Haiku 4.5	言語、ビジョン	Claude Haiku 4.5 は、幅広いユースケースで最先端に近いパフォーマンスを実現し、無料のプロダクトや大量のユーザーエクスペリエンスを支える適切な速度とコストを備えた、世界で最も優れたコーディングモデルの 1 つとして際立っています。	モデルカード
Claude Opus 4	言語、ビジョン	Claude Opus 4 は、集中的な作業と数千ものステップを必要とする長時間にわたるタスクで安定したパフォーマンスを発揮し、AI エージェントが解決できる範囲を大幅に拡大します。	モデルカード
Claude Sonnet 4	言語、ビジョン	コーディング、詳細な調査、エージェントなど、大量のユースケースのために優れたインテリジェンスを備えた Anthropic の中規模モデル。	モデルカード
Anthropic の Claude 3.7 Sonnet	言語、ビジョン	コーディングと AI エージェントの強化に最適な業界をリードするモデル。思考が強化された最初の Claude モデル。	モデルカード
Anthropic の Claude 3.5 Sonnet v2	言語、ビジョン	アップグレードされた Claude 3.5 Sonnet は、現実世界のソフトウェアエンジニアリングタスクとエージェント機能向けの最先端モデルです。Claude 3.5 Sonnet は、前のモデルと同じ価格とスピードでこれらの進歩を実現しています。	モデルカード
Anthropic の Claude 3.5 Haiku	言語、ビジョン	Anthropic の最速かつ最も費用対効果の高い次世代モデルである Claude 3.5 Haiku は、スピードとコストパフォーマンスが重視されるユースケースに最適です。	モデルカード
Anthropic の Claude 3 Haiku	言語	Anthropic で最も高速なビジョンとテキストのモデルです。基本的なクエリにほぼ瞬時に応答し、人間のやり取りに近いシームレスな AI エクスペリエンスを実現します。	モデルカード
Anthropic の Claude 3.5 Sonnet	言語	Anthropic の Claude 3.5 Sonnet は、Anthropic の幅広い評価において Claude 3 Opus を上回っています。また、そのスピードと料金は Anthropic の中間モデルである Claude 3 Sonnet と同じです。	モデルカード
Jamba 1.5 Large（プレビュー）	言語	AI21 Labs の Jamba 1.5 Large は、同サイズクラスの他のモデルと比較して、優れた品質のレスポンス、高いスループット、競争力のある価格を実現するように設計されています。	モデルカード
Jamba 1.5 Mini（プレビュー）	言語	AI21 Labs の Jamba 1.5 Mini は、品質、スループット、低コストのバランスが取れています。	モデルカード
Mistral Medium 3	言語	Mistral Medium 3 は、プログラミング、数学的推論、長いドキュメントの理解、要約、会話など、幅広いタスク向けに設計された汎用モデルです。	モデルカード
Mistral OCR（25.05）	言語、ビジョン	Mistral OCR（25.05）は、ドキュメントの理解のための光学式文字認識 API です。モデルは、メディア、テキスト、表、数式などのドキュメントの各要素を理解します。	モデルカード
Mistral Small 3.1（25.03）	言語	Mistral Small 3.1（25.03）は、マルチモーダル機能と拡張されたコンテキスト長を備えた Mistral の Small モデルの最新バージョンです。	モデルカード
Mistral Large（24.11）	言語	Mistral Large（24.11）は Mistral Large（24.07）モデルの次期バージョンで、推論機能と関数呼び出し機能が強化されています。	モデルカード
Codestral 2	言語、コード	Codestral 2 は、高精度の Fill-in-the-Middle（FIM）補完専用に構築された Mistral のコード生成特化モデルです。このモデルにより、デベロッパーは共有された指示と補完の API エンドポイントを通じたコードの記述と操作が可能になります。	モデルカード
Codestral（25.01）	コード	Fill-in-the-Middle やコード補完など、コード生成向けに設計された最先端モデルです。	モデルカード

Model Garden で利用可能なオープンモデル

次の表に、Model Garden で利用可能なオープンモデルを示します。

モデル名	モダリティ	説明	クイックスタート
gpt-oss 120B	言語	推論タスクで高いパフォーマンスを発揮する 120B モデル。	モデルカード
gpt-oss 20B	言語	消費者やエッジ用ハードウェア上での効率とデプロイに最適化された 20B モデル。	モデルカード
Qwen3-Next-80B の思考	言語、コード	複雑な問題解決と深い推論に特化した Qwen3-Next モデルファミリーのモデル。	モデルカード
Qwen3-Next-80B Instruct	言語、コード	特定のコマンドに従うことに特化した Qwen3-Next ファミリーのモデル。	モデルカード
Qwen3 Coder	言語、コード	高度なソフトウェア開発タスク用に開発されたオープンウェイトモデル。	モデルカード
Qwen3 235B	言語	体系的な推論と迅速な会話を切り替える「ハイブリッド思考」機能を備えたオープンウェイトモデル。	モデルカード
DeepSeek-V3.1	言語	思考モードと非思考モードの両方をサポートする DeepSeek のハイブリッドモデル。	モデルカード
DeepSeek R1（0528）	言語	DeepSeek の DeepSeek R1 モデルの最新バージョン。	モデルカード
Llama 4 Maverick 17B-128E	言語、ビジョン	コーディング、推論、画像処理の機能を備えた、最大かつ最高性能の Llama 4 モデル。Llama 4 Maverick 17B-128E は、Mixture of Experts（MoE）アーキテクチャと早期融合を使用するマルチモーダルモデルです。	モデルカード
Llama 4 Scout 17B-16E	言語、ビジョン	Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルや独自のモデルを上回っています。Llama 4 Scout 17B-16E は、Mixture-of-Experts（MoE）アーキテクチャと早期融合を使用するマルチモーダルモデルです。	モデルカード
Llama 3.3	言語	Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。また、一部のアプリケーションでは、Llama 3.3 70B のパフォーマンスが Llama 3.1 405B に近づきます。	モデルカード
Llama 3.2（プレビュー）	言語、ビジョン	チャートやグラフの分析、画像キャプションなど、画像推論をサポートできる中規模の 90B マルチモーダルモデル。	モデルカード
Llama 3.1	言語	多言語の会話のユースケース用に最適化された多言語 LLM のコレクション。一般的な業界ベンチマークでは、利用可能なオープンソースチャットモデルやクローズドチャットモデルの多くを上回るパフォーマンスを発揮します。 Llama 3.1 405B は一般提供（GA）されています。 Llama 3.1 8B と Llama 3.1 70B はプレビュー版です。	モデルカード

Model Garden のオープンソースチューニングまたはサービス提供レシピを含むモデルのリスト

次の表に、Model Garden でオープンソースのチューニングまたはレシピの提供をサポートする OSS モデルを示します。

モデル名	モダリティ	説明	クイックスタート
Llama 4	言語、ビジョン	Mixture-of-Experts（MoE）アーキテクチャと早期融合を使用するマルチモーダルモデルのファミリー。	Colab モデルカード
Llama 3.3	言語	Meta Llama 3.3 多言語大規模言語モデル（LLM）は、70B（テキスト入力/テキスト出力）の事前トレーニング済みで指示用にチューニングされた生成モデルです。	モデルカード
Flux	ビジョン	テキストの説明から高品質の画像を生成する 120 億のパラメータ修正フロートランスフォーマーモデル。	モデルカード
プロンプトガード	言語	ジェイルブレイク手法と間接インジェクションから LLM 入力を保護します。	モデルカード
Llama 3.2	言語	1B と 3B の事前トレーニング済みで指示用にチューニングされた生成モデルである、多言語大規模言語モデルのコレクション。	モデルカード
Llama 3.2-Vision	言語、ビジョン	11B と 90B の事前トレーニング済みで指示用にチューニングされた画像推論生成モデルである、マルチモーダル大規模言語モデルのコレクション。これらのモデルは、画像認識、画像推論、キャプション、画像に関する一般的な質問への回答用に最適化されています。	モデルカード
Llama Guard 3	言語	コンテンツの安全性分類用にファインチューニングされた Llama-3.1-8B 事前トレーニング済みモデル。	モデルカード
Qwen2	言語	大規模言語モデルの基盤モデルシリーズである Qwen2 をデプロイします。	Colab モデルカード
Phi-3	言語	大規模言語モデルの基盤モデルシリーズである Phi-3 をデプロイします。	Colab モデルカード
E5	言語	E5（テキストエンベディングモデルシリーズ）をデプロイします。	Colab モデルカード
Instant ID	言語、ビジョン	Instant ID をデプロイします。これは、ID を保持するテキストから画像の生成モデルです。	Colab モデルカード
Llama 3	言語	Vertex AI で Meta の Llama 3 モデル（8B、70B、405B）を使用して、モデルの探索と構築を行います。	モデルカード
Gemma 3n	言語、ビジョン、音声	Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープンウェイトモデル（E2B、E4B）。	モデルカード
Gemma 3	言語、ビジョン	Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープンウェイトモデル（1B テキストのみ、4B、12B、27B）。	モデルカード
Gemma 2	言語	Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープンウェイトモデル（9B、27B）。	モデルカード
Gemma	言語	Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープンウェイトモデル（2B、7B）。	モデルカード
CodeGemma	言語	コードの生成と補完用に設計されたオープンウェイトモデル（2B、7B）。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。	モデルカード
PaliGemma 2	言語、ビジョン	画像キャプションタスク、画像に関する質問応答タスク用に設計されたオープンウェイトの 3B、10B、28B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。	モデルカード
PaliGemma	言語、ビジョン	画像キャプションタスク、画像に関する質問応答タスク用に設計されたオープンウェイトの 3B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。	モデルカード
ShieldGemma 2	言語、ビジョン	Gemma 3 の 4B IT チェックポイントでトレーニングされたオープンウェイトの 4B モデル。画像を入力し、ポリシーごとに安全ラベルを出力します。	モデルカード
TxGemma	言語	Gemma 2 を基盤として構築された、治療開発用に設計されたオープンウェイトモデル（2B、9B、27B）。	モデルカード
MedGemma	言語、ビジョン	医療のテキストと画像の理解におけるパフォーマンスを重視して設計されたオープンウェイトモデル（4B、27B）。	モデルカード
MedSigLIP	言語、ビジョン	医療画像とテキストを共通のエンベディング空間にエンコードするように設計されたオープンウェイトモデル（4 億個のパラメータのビジョンエンコーダと 4 億個のパラメータのテキストエンコーダ）。	モデルカード
T5Gemma	言語	Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープンウェイトの Encoder-Decoder モデル（2B-2B、9B-9B、9B-2B、S-S、B-B、L-L、M-L、XL-XL）。	モデルカード
Vicuna v1.5	言語	LLama2 からテキスト生成のためにファインチューニングされた基盤モデルである Vicuna v1.5 シリーズモデルをデプロイします。	モデルカード
NLLB	言語	多言語翻訳用の NLLB シリーズモデルをデプロイします。	モデルカード Colab
Mistral-7B	言語	テキスト生成の基盤モデルである Mistral-7B をデプロイします。	モデルカード
BioGPT	言語	生物医学分野向けのテキスト生成モデル BioGPT をデプロイします。	モデルカード Colab
BiomedCLIP	言語、ビジョン	生物医学分野向けのマルチモーダル基盤モデルである BiomedCLIP をデプロイします。	モデルカード Colab
ImageBind	言語、ビジョン、音声	マルチモーダルエンベディングの基盤モデルである ImageBind をデプロイします。	モデルカード Colab
DITO	言語、ビジョン	DITO（オープンな語彙オブジェクト検出タスクのためのマルチモーダル基盤モデル）をファインチューニングしてデプロイします。	モデルカード Colab
OWL-ViT v2	言語、ビジョン	OWL-ViT v2（オープン語彙オブジェクト検出タスク用のマルチモーダル基盤モデル）をデプロイします。	モデルカード Colab
FaceStylizer（Mediapipe）	ビジョン	人の顔の画像を新しいスタイルに変換する生成パイプライン。	モデルカード Colab
Llama 2	言語	Meta の Llama 2 基盤モデル（7B、13B、70B）をファインチューニングして Vertex AI にデプロイします。	モデルカード
Code Llama	言語	Meta の Code Llama 基盤モデル（7B、13B、34B）を Vertex AI にデプロイします。	モデルカード
Falcon-instruct	言語	PEFT を使用して Falcon-instruct のモデル（7B、40B）をファインチューニングしてデプロイします。	Colab モデルカード
OpenLLaMA	言語	PEFT を使用して OpenLLaMA モデル（3B、7B、13B）をファインチューニングしてデプロイします。	Colab モデルカード
T5-FLAN	言語	T5-FLAN（ベース、小、大）をファインチューニングしてデプロイします。	モデルカード（ファインチューニングパイプラインを含む）
BERT	言語	PEFT を使用して BERT をファインチューニングしてデプロイします。	Colab モデルカード
BART-large-cnn	言語	双方向（BERT-like）のエンコーダと自己回帰（GPT-like）デコーダを備えた Transformer Encoder-Encoder（seq2seq）モデルである BART をデプロイします。	Colab モデルカード
RoBERTa-large	言語	PEFT を使用して RoBERTa-large をファインチューニングしてデプロイします。	Colab モデルカード
XLM-RoBERTa-large	言語	PEFT を使用して XLM-RoBERTa-large（RoBERTa の多言語バージョン）をファインチューニングしてデプロイします。	Colab モデルカード
Stable Diffusion XL v1.0	言語、ビジョン	テキストからの画像の生成をサポートする Stable Diffusion XL v1.0 をデプロイします。	Colab モデルカード
Stable Diffusion XL Lightning	言語、ビジョン	Stable Diffusion XL Lightning（テキストから画像の生成モデル）をデプロイします。	Colab モデルカード
Stable Diffusion v2.1	言語、ビジョン	Dreambooth を使用して Stable Diffusion v2.1（テキストから画像の生成をサポート）のファインチューニングとデプロイを行います。	Colab モデルカード
Stable Diffusion 4x アップスケーラー	言語、ビジョン	Stable Diffusion 4x アップスケーラー（テキスト条件の画像スーパー解像度をサポート）をデプロイします。	Colab モデルカード
InstructPix2Pix	言語、ビジョン	InstructPix2Pix（テキストプロンプトを使用した画像の編集をサポート）をデプロイします。	Colab モデルカード
Stable Diffusion Inpainting	言語、ビジョン	Stable Diffusion Inpainting（テキストプロンプトを使用してマスクされた画像の描画をサポート）をファインチューニングしてデプロイします。	Colab モデルカード
SAM	言語、ビジョン	Segment Anything（ゼロショット画像セグメンテーションをサポート）をデプロイします。	Colab モデルカード
Pic2Word Composed Image Retrieval	言語、ビジョン	Pic2Word（マルチモーダルな合成画像の取得をサポート）をデプロイします。	Colab モデルカード
BLIP2	言語、ビジョン	BLIP2（画像のキャプションと視覚的な質問応答をサポート）をデプロイします。	Colab モデルカード
Open-CLIP	言語、ビジョン	Open-CLIP（ゼロショット分類をサポート）をファインチューニングしてデプロイします。	Colab モデルカード
F-VLM	言語、ビジョン	F-VLM（オープン語彙画像オブジェクト検出をサポート）をデプロイします。	Colab モデルカード
tfhub / EfficientNetV2	ビジョン	EfficientNetV2 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。	Colab モデルカード
EfficientNetV2（TIMM）	ビジョン	EfficientNetV2 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。	Colab モデルカード
Proprietary / EfficientNetV2	ビジョン	EfficientNetV2 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。	Colab モデルカード
EfficientNetLite（MediaPipe）	ビジョン	MediaPipe モデルメーカーを使用して EfficientNetLite 画像分類モデルをファインチューニングします。	Colab モデルカード
tfvision / vit	ビジョン	ViT 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。	Colab モデルカード
ViT（TIMM）	ビジョン	ViT 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。	Colab モデルカード
Proprietary / ViT	ビジョン	ViT 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。	Colab モデルカード
Proprietary / MaxViT	ビジョン	MaxViT ハイブリッド（CNN + ViT）画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。	Colab モデルカード
ViT（JAX）	ビジョン	ViT 画像分類モデルの JAX 実装をファインチューニングしてデプロイします。	Colab モデルカード
tfvision / SpineNet	ビジョン	SpineNet オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。	Colab モデルカード
Proprietary / Spinenet	ビジョン	Spinenet オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。	Colab モデルカード
tfvision / YOLO	ビジョン	YOLO の 1 ステージオブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。	Colab モデルカード
Proprietary / YOLO	ビジョン	YOLO の 1 ステージオブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。	Colab モデルカード
YOLOv8（Keras）	ビジョン	オブジェクト検出用の YOLOv8 モデルの Keras 実装をファインチューニングしてデプロイします。	Colab モデルカード
tfvision / YOLOv7	ビジョン	オブジェクト検出用の YOLOv7 モデルをファインチューニングしてデプロイします。	Colab モデルカード
ByteTrack Video Object Tracking	ビジョン	ByteTrack トラッカーを使用して、動画オブジェクトトラッキングのバッチ予測を実行します。	Colab モデルカード
ResNeSt（TIMM）	ビジョン	ResNeSt 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。	Colab モデルカード
ConvNeXt（TIMM）	ビジョン	ConvNeXt（Vision Transformers の設計にヒントを得た画像分類の純粋な畳み込みモデル）のファインチューニングとデプロイを行います。	Colab モデルカード
CspNet（TIMM）	ビジョン	CSPNet（クロスステージ部分ネットワーク）画像分類モデルをファインチューニングしてデプロイします。	Colab モデルカード
Inception（TIMM）	ビジョン	Inception 画像分類モデルをファインチューニングしてデプロイします。	Colab モデルカード
DeepLabv3+（チェックポイントを使用）	ビジョン	セマンティック画像セグメンテーション用に DeepLab-v3 Plus モデルをファインチューニングしてデプロイします。	Colab モデルカード
Faster R-CNN（Detectron2）	ビジョン	画像オブジェクト検出の Faster R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。	Colab モデルカード
RetinaNet（Detectron2）	ビジョン	画像オブジェクト検出用に RetinaNet モデルの Detectron2 実装をファインチューニングしてデプロイします。	Colab モデルカード
Mask R-CNN（Detectron2）	ビジョン	画像オブジェクト検出とセグメンテーションのための Mask R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。	Colab モデルカード
ControlNet	ビジョン	ControlNet のテキストからの画像の生成モデルをファインチューニングしてデプロイします。	Colab モデルカード
MobileNet（TIMM）	ビジョン	MobileNet 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。	Colab モデルカード
MobileNetV2（MediaPipe）Image Classification	ビジョン	MediaPipe モデルメーカーを使用して MobileNetV2 画像分類モデルをファインチューニングします。	Colab モデルカード
MobileNetV2（MediaPipe）Object Detection	ビジョン	MediaPipe モデルメーカーを使用して MobileNetV2 オブジェクト検出モデルをファインチューニングします。	Colab モデルカード
MobileNet-MultiHW-AVG（MediaPipe）	ビジョン	MediaPipe モデルメーカーを使用して MobileNet-MultiHW-AVG オブジェクト検出モデルをファインチューニングします。	Colab モデルカード
DeiT	ビジョン	画像分類用の DeiT（Data-efficient Image Transformers）モデルをファインチューニングしてデプロイします。	Colab モデルカード
BEiT	ビジョン	画像分類用の BEiT（Bidirectional Encoder representation from Image Transformers）モデルをファインチューニングしてデプロイします。	Colab モデルカード
Hand Gesture Recognition（MediaPipe）	ビジョン	MediaPipe を使用して、デバイス上で Hand Gesture Recognition モデルをファインチューニングしてデプロイします。	Colab モデルカード
Average Word Embedding Classifier（MediaPipe）	ビジョン	MediaPipe を使用して Average Word Embedding Classifier モデルをデバイス上でファインチューニングしてデプロイします。	Colab モデルカード
MobileBERT Classifier（MediaPipe）	ビジョン	MediaPipe を使用して、デバイス上で MobileBERT Classifier モデルをファインチューニングし、デプロイします。	Colab モデルカード
MoViNet Video Clip Classification	動画	MoViNet の動画クリップ分類モデルをファインチューニングしてデプロイします。	Colab モデルカード
MoViNet Video Action Recognition	動画	動作認識推論用の MoViNet モデルをファインチューニングしてデプロイします。	Colab モデルカード
Stable Diffusion XL LCM	ビジョン	このモデルは Latent Consistency Model（LCM）を使用します。デプロイすると、より少ないステップで迅速かつ高品質の画像を作成できるため、潜在拡散モデルにおけるテキストから画像の生成が強化されます。	Colab モデルカード
LLaVA 1.5	ビジョン、言語	LLaVA 1.5 モデルをデプロイします。	Colab モデルカード
Pytorch-ZipNeRF	ビジョン、動画	Pytorch-ZipNeRF モデルをトレーニングします。このモデルは、Pytorch フレームワークの ZipNeRF アルゴリズムの最先端の実装であり、2D 画像から効率的かつ正確に 3D を再構成するように設計されています。	Colab モデルカード
Mixtral	言語	Mistral AI が開発した Mixture of Experts（MoE）大規模言語モデル（LLM）である Mixtral モデルをデプロイします。	モデルカード
Llama 2（量子化）	言語	Meta の Llama 2 モデルの量子化バージョンをファインチューニングしてデプロイします。	Colab モデルカード
LaMa（Large Mask Inpainting）	ビジョン	Fast Fourier Convolution（FFC）、High Receptive Field Perceptual Loss、Large Training Masks を使用する LaMa をデプロイします。これにより、解像度の高い画像修復を行います。	Colab モデルカード
AutoGluon	表形式	AutoGluon を使用すると、表形式データ用の高精度 ML モデルとディープラーニングモデルをトレーニングしてデプロイできます。	Colab モデルカード
MaMMUT	言語、ビジョン	マルチモーダルタスク（Visual Question Answering、画像テキスト検索、テキスト画像検索、マルチモーダルエンベディングの生成など）用のビジョンエンコーダとテキストデコーダのアーキテクチャ。	Colab モデルカード
Whisper Large	スピーチ	OpenAI の最先端自動音声認識モデル（ASR）である Whisper Large をデプロイします。	Colab モデルカード

Model Garden でサポートされているモデル

Google の自社モデルのリスト

Model Garden で利用できるマネージド モデルのリスト

Model Garden で利用可能なパートナー モデル

Model Garden で利用可能なオープンモデル

Model Garden のオープンソース チューニングまたはサービス提供レシピを含むモデルのリスト

Model Garden で利用できるマネージドモデルのリスト

Model Garden で利用可能なパートナーモデル

Model Garden のオープンソースチューニングまたはサービス提供レシピを含むモデルのリスト