Model Garden 支持的模型

Google 的第一方模型列表

下表列出了 Model Garden 中提供的 Google 第一方模型：

模型名称	模态	说明	快速入门
Gemini 2.5 Flash（预览版）	语言、音频、视觉	旨在平衡价格和性能的思考模型。	模型卡片
Gemini 2.5 Pro（预览版）	语言、音频、视觉	思考模型，具有新一代功能，能力更强。	模型卡片
Gemini 2.0 Flash	语言、音频、视觉	适用于所有日常任务的主要模型，性能有所提升，并支持实时 Live API。	模型卡片
Gemini 2.0 Flash-Lite	语言、音频、视觉	最快、最具成本效益的 Flash 模型。与 1.5 相比，该模型以相同的价格和速度提供更高的质量。	模型卡片
Imagen for Image Generation	Vision	使用文本提示大规模制作工作室级图片。您还可以使用此模型放大图片。	模型卡片
Imagen for Editing and Customization	Vision	使用基础图片和文本提示，或使用参考图片和文本提示，修改或利用少量样本学习大规模制作工作室级图片。	模型卡片
Vertex Image Segmentation（预览版）	Vision	使用文本提示或绘制涂鸦对图片进行分割。借助图片分割，您可以执行检测对象、移除图片背景或分割图片前景等操作。	模型卡片
Imagen for Captioning & VQA	语言	为给定图片生成相关说明。	模型卡片
Embeddings for Text	语言	根据文本生成向量，这些向量可用于语义搜索、文本分类和情感分析等下游任务。	模型卡片
Embeddings for Multimodal	Vision	基于图片生成向量，这些向量可用于图片分类和图片搜索等下游任务。	模型卡片
Chirp 2	语音	Chirp 2 是 Google 开发的多语言自动语音识别 (ASR) 模型，用于转写语音（语音转文字）。与第一代 Chirp 模型相比，Chirp 2 的准确率和速度都有所提升，并提供了字词级时间戳、模型自适应和语音翻译等新功能。	模型卡片

Model Garden 中提供的托管式模型列表

模型在 Vertex AI Model Garden 上以托管式 API 的形式（也称为模型即服务）提供。

Model Garden 中提供的合作伙伴模型

下表列出了 Model Garden 中提供的合作伙伴模型：

模型名称	模态	说明	快速入门
Claude Opus 4.1	语言、视觉	编码领域的行业领导者。它在需要集中精力并执行数千个步骤的长时间运行任务中可提供持续的性能，从而显著扩展了 AI 智能体的解决能力。非常适合为前沿代理产品和功能提供支持。	模型卡片
Claude Opus 4	语言、视觉	Claude Opus 4 在需要集中精力并执行数千个步骤的长时间运行任务中可提供持续的性能，从而显著扩展了 AI 智能体可以解决的问题范围。	模型卡片
Claude Sonnet 4.5	语言、视觉	Anthropic 的中型模型，可为实际应用中的智能体提供在编码、计算机使用、网络安全和处理电子表格等办公文件方面的功能。	模型卡片
Claude Sonnet 4	语言、视觉	Anthropic 的中型模型，具有出色的智能水平，适合大批量使用，例如编码、深入研究和智能体。	模型卡片
Anthropic 的 Claude 3.7 Sonnet	语言、视觉	业界领先的编码模型，可为 AI 智能体提供支持，是首个提供扩展思考的 Claude 模型。	模型卡片
Anthropic 的 Claude 3.5 Sonnet v2	语言、视觉	升级后的 Claude 3.5 Sonnet 是用于处理实际的软件工程任务和智能体功能的先进模型。Claude 3.5 Sonnet 依靠与其前代产品相同的价格和速度实现了这些进步。	模型卡片
Anthropic 的 Claude 3.5 Haiku	语言、视觉	Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的新一代模型，非常适合速度和经济性重要的应用场景。	模型卡片
Anthropic 的 Claude 3 Haiku	语言	Anthropic 最快的视觉和文本模型，能够近乎即时地回答基本的查询，旨在打造模仿人类互动的无缝 AI 体验。	模型卡片
Anthropic 的 Claude 3.5 Sonnet	语言	Claude 3.5 Sonnet 凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本，在 Anthropic 的多种评估中优于 Anthropic 的 Claude 3 Opus。	模型卡片
Jamba 1.5 Large（预览版）	语言	AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量，并且价格与同类别的其他模型相比具有竞争力。	模型卡片
Jamba 1.5 Mini（预览版）	语言	AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。	模型卡片
Mistral OCR (25.05)	语言、视觉	Mistral OCR (25.05) 是一款用于文档理解的光学字符识别 API。模型能够理解文档的每个元素，例如媒体、文本、表格和方程式。	模型卡片
Mistral Small 3.1 (25.03)	语言	Mistral Small 3.1 (25.03) 是 Mistral Small 模型的最新版本，具有多模态功能和更长的上下文长度。	模型卡片
Mistral Large (24.11)	语言	Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一个版本，提高了推理和函数调用功能。	模型卡片
Codestral (25.01)	代码	一种专为代码生成（包括填充中间代码和代码补全）而设计的先进模型。	模型卡片

Model Garden 中提供的开放模型

下表列出了 Model Garden 中提供的开放模型：

模型名称	模态	说明	快速入门
gpt-oss 120B	语言	一个 120B 模型，在推理任务方面表现出色。	模型卡片
gpt-oss 20B	语言	一个 20B 模型，经过优化，可在消费类硬件和边缘硬件上高效部署。	模型卡片
Qwen3-Next-80B Thinking	语言、代码	Qwen3-Next 系列模型中的一种，专门用于解决复杂问题和进行深度推理。	模型卡片
Qwen3-Next-80B Instruct	语言、代码	Qwen3-Next 系列模型中的一种，专门用于遵循特定命令。	模型卡片
Qwen3 Coder	语言、代码	一款专为高级软件开发任务而开发的开放权重模型。	模型卡片
Qwen3 235B	语言	一款开放权重模型，具有“混合思维”能力，可在有条理的推理和快速对话之间切换。	模型卡片
DeepSeek-V3.1	语言	DeepSeek 的混合模型，可同时支持思考模式和非思考模式。	模型卡片
DeepSeek R1 (0528)	语言	DeepSeek 最新版本的 DeepSeek R1 模型。	模型卡片
Llama 4 Maverick 17B-128E	语言、视觉	最大、最强大的 Llama 4 模型，具有编码、推理和图像功能。Llama 4 Maverick 17B-128E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。	模型卡片
Llama 4 Scout 17B-16E	语言、视觉	Llama 4 Scout 17B-16E 在同类模型中取得了出色的结果，在多项基准测试中超越了之前的 Llama 模型以及其他开放模型和专有模型。Llama 4 Scout 17B-16E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。	模型卡片
Llama 3.3	语言	Llama 3.3 是纯文本 70B 指令调优模型，用于纯文本应用时，相对于 Llama 3.1 70B 和 Llama 3.2 90B，可提供增强的性能。此外，对于某些应用，Llama 3.3 70B 的性能接近 Llama 3.1 405B。	模型卡片
Llama 3.2（预览版）	语言、视觉	中型 90B 多模态模型，可支持图片推理，例如图表和图形分析以及图片标注。	模型卡片
Llama 3.1	语言	一组针对多语言对话应用场景优化的多语言 LLM，在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 Llama 3.1 405B 已正式发布 (GA)。 Llama 3.1 8B 和 Llama 3.1 70B 目前为预览版。	模型卡片

Model Garden 中使用开源调优或服务配方的模型列表

下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型：

模型名称	模态	说明	快速入门
Llama 4	语言、视觉	一系列使用混合专家 (MoE) 架构和早期融合技术的多模态模型。	Colab 模型卡片
Llama 3.3	语言	Meta Llama 3.3 多语言的大语言模型 (LLM) 是一种经过预训练的指令调优生成模型，大小为 70B（文本输入/文本输出）。	模型卡片
Flux	Vision	一个具有 120 亿参数的 rectified flow transformer 模型，可根据文本说明生成高质量的图片。	模型卡片
提示保护	语言	保护 LLM 输入免遭越狱技术和间接注入。	模型卡片
Llama 3.2	语言	一组多语言的大语言模型，这些模型是经过预训练的指令调优生成模型，大小为 1B 和 3B。	模型卡片
Llama 3.2-Vision	语言、视觉	一组多模态大语言模型，这些模型是经过预训练的指令调优图片推理生成模型，大小为 11B 和 90B。这些模型针对视觉识别、图片推理、标注和回答有关图片的一般问题进行了优化。	模型卡片
Llama Guard 3	语言	针对内容安全性分类进行了微调的 Llama-3.1-8B 预训练模型。	模型卡片
Qwen2	语言	部署基础大语言模型系列 Qwen2。	Colab 模型卡片
Phi-3	语言	部署基础大语言模型系列 Phi-3。	Colab 模型卡片
E5	语言	部署 E5（文本嵌入模型系列）。	Colab 模型卡片
Instant ID	语言、视觉	部署 Instant ID，这是一种保护身份的文字转图片生成模型。	Colab 模型卡片
Llama 3	语言	在 Vertex AI 上使用 Meta 的 Llama 3 模型（8B、70B、405B）进行探索和构建。	模型卡片
Gemma 3n	语言、视觉、音频	开放式权重模型（E2B、E4B），基于创建 Google Gemini 模型所用的研究和技术构建而成。	模型卡片
Gemma 3	语言、视觉	开放式权重模型（1B 纯文本、4B、12B、27B），基于创建 Google 的 Gemini 模型所用的研究和技术构建而成。	模型卡片
Gemma 2	语言	开放式权重模型（9B、27B），基于创建 Google Gemini 模型所用的研究和技术构建而成。	模型卡片
Gemma	语言	开放式权重模型（2B、7B），基于创建 Google Gemini 模型所用的研究和技术构建而成。	模型卡片
CodeGemma	语言	开放式权重模型（2B、7B）（专为代码生成和代码补全而设计的模型）使用用于创建 Google Gemini 模型所用的研究和技术构建而成。	模型卡片
PaliGemma 2	语言、视觉	开放式权重 3B、10B 和 28B 模型（专为图片标注任务和视觉问答任务而设计的模型），通过创建 Google 的 Gemini 模型所用的研究和技术构建而成。	模型卡片
PaliGemma	语言、视觉	开放权重 3B 模型（专为图片标注任务和视觉问答任务而设计的模型）使用创建 Google Gemini 模型所用的研究和技术构建而成。	模型卡片
ShieldGemma 2	语言、视觉	开放式权重 4B 模型，基于 Gemma 3 的 4B IT 检查点进行训练，用于对关键类别的图片进行安全分类，可接收图片并根据政策输出安全标签。	模型卡片
TxGemma	语言	开放式权重模型（2B、9B、27B），专为治疗开发而设计，基于 Gemma 2 构建而成。	模型卡片
MedGemma	语言、视觉	开放式权重模型（4B、27B），旨在提升医学文本和图像理解方面的性能。	模型卡片
MedSigLIP	语言、视觉	开放式权重模型（4 亿参数视觉编码器和 4 亿参数文本编码器），旨在将医学图像和文本编码到通用嵌入空间中。	模型卡片
T5Gemma	语言	开放式权重编码器-解码器模型（2B-2B、9B-9B、9B-2B、S-S、B-B、L-L、M-L、XL-XL），基于创建 Google 的 Gemini 模型所用的研究和技术构建而成。	模型卡片
Vicuna v1.5	语言	部署 Vicuna v1.5 系列模型，它们是根据 LLama2 微调的基础模型，用于文本生成。	模型卡片
NLLB	语言	部署 nllb 系列模型，用于多语言翻译。	模型卡片 Colab
Mistral-7B	语言	部署 Mistral-7B，这是一个用于文本生成的基础模型。	模型卡片
BioGPT	语言	部署 BioGPT，这是一种用于生物医学领域的文本生成模型。	模型卡片 Colab
BiomedCLIP	语言、视觉	部署 BiomedCLIP，这是一种用于生物医学领域的多模态基础模型。	模型卡片 Colab
ImageBind	语言、视觉、音频	部署 ImageBind，这是一种用于多模态嵌入的基础模型。	模型卡片 Colab
DITO	语言、视觉	微调和部署 DITO，这是一种用于开放词汇对象检测任务的多模态基础模型。	模型卡片 Colab
OWL-ViT v2	语言、视觉	部署 OWL-ViT v2，这是一种用于开放词汇对象检测任务的多模态基础模型。	模型卡片 Colab
FaceStylizer (Mediapipe)	Vision	将人脸图像转换为新风格的生成式流水线。	模型卡片 Colab
Llama 2	语言	在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型（7B、13B、70B）。	模型卡片
Code Llama	语言	在 Vertex AI 上部署 Meta 的 Code Llama 基础模型（7B、13B、34B）。	模型卡片
Falcon-instruct	语言	使用 PEFT 微调和部署 Falcon-instruct 模型（7B、40B）。	Colab 模型卡片
OpenLLaMA	语言	使用 PEFT 微调和部署 OpenLLaMA 模型（3B、7B、13B）。	Colab 模型卡片
T5-FLAN	语言	微调和部署 T5-FLAN（基础、小、大）。	模型卡片（包含微调流水线）
BERT	语言	使用 PEFT 微调和部署 BERT。	Colab 模型卡片
BART-large-cnn	语言	部署 BART，这是一个转换器编码器-编码器 (seq2seq) 模型，具有双向（类似于 BERT）编码器和自动回归（类似于 GPT）解码器。	Colab 模型卡片
RoBERTa-large	语言	使用 PEFT 微调和部署 RoBERTa-large。	Colab 模型卡片
XLM-RoBERTa-large	语言	使用 PEFT 微调和部署 XLM-RoBERTa-large（多语言版 RoBERTa）。	Colab 模型卡片
Stable Diffusion XL v1.0	语言、视觉	部署 Stable Diffusion XL v1.0，它支持文字转图片。	Colab 模型卡片
Stable Diffusion XL Lightning	语言、视觉	部署 Stable Diffusion XL Lightning，这是一种文字转图片生成模型。	Colab 模型卡片
Stable Diffusion v2.1	语言、视觉	使用 Dreambooth 微调和部署 Stable Diffusion v2.1（支持文字转图片）。	Colab 模型卡片
Stable Diffusion 4x upscaler	语言、视觉	部署 Stable Diffusion 4x upscaler，它支持文本条件式图片超分辨率。	Colab 模型卡片
InstructPix2Pix	语言、视觉	部署 InstructPix2Pix，它支持使用文本提示来编辑图片。	Colab 模型卡片
Stable Diffusion Inpainting	语言、视觉	微调和部署 Stable Diffusion Inpainting，它支持使用文本提示来修复遮盖图片。	Colab 模型卡片
SAM	语言、视觉	部署 Segment Anything，它支持零镜头图像分割。	Colab 模型卡片
Pic2Word Composed Image Retrieval	语言、视觉	部署 Pic2Word，它支持多模态合成图片检索。	Colab 模型卡片
BLIP2	语言、视觉	部署 BLIP2，它支持图片描述和视觉问答。	Colab 模型卡片
Open-CLIP	语言、视觉	微调和部署 Open-CLIP，它支持零镜头分类。	Colab 模型卡片
F-VLM	语言、视觉	部署 F-VLM，它支持开放词汇图片对象检测。	Colab 模型卡片
tfhub/EfficientNetV2	Vision	微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。	Colab 模型卡片
EfficientNetV2 (TIMM)	Vision	微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。	Colab 模型卡片
Proprietary/EfficientNetV2	Vision	微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。	Colab 模型卡片
EfficientNetLite (MediaPipe)	Vision	通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。	Colab 模型卡片
tfvision/vit	Vision	微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。	Colab 模型卡片
ViT (TIMM)	Vision	微调和部署 ViT 图片分类模型的 PyTorch 实现。	Colab 模型卡片
Proprietary/ViT	Vision	微调和部署 ViT 图片分类模型的 Google 专有检查点。	Colab 模型卡片
Proprietary/MaxViT	Vision	微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。	Colab 模型卡片
ViT (JAX)	Vision	微调和部署 ViT 图片分类模型的 JAX 实现。	Colab 模型卡片
tfvision/SpineNet	Vision	微调和部署 SpineNet 对象检测模型的 TensorFlow Vision 实现。	Colab 模型卡片
Proprietary/Spinenet	Vision	微调和部署 SpineNet 对象检测模型的 Google 专有检查点。	Colab 模型卡片
tfvision/YOLO	Vision	微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。	Colab 模型卡片
Proprietary/YOLO	Vision	微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。	Colab 模型卡片
YOLOv8 (Keras)	Vision	微调和部署 YOLOv8 对象检测模型的 Keras 实现。	Colab 模型卡片
tfvision/YOLOv7	Vision	微调和部署 YOLOv7 对象检测模型。	Colab 模型卡片
ByteTrack Video Object Tracking	Vision	使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。	Colab 模型卡片
ResNeSt (TIMM)	Vision	微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。	Colab 模型卡片
ConvNeXt (TIMM)	Vision	微调和部署 ConvNeXt，这是一种用于图片分类的纯卷积模型，其灵感来自 Vision Transformer 的设计。	Colab 模型卡片
CspNet (TIMM)	Vision	微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。	Colab 模型卡片
Inception (TIMM)	Vision	微调和部署 Inception 图片分类模型。	Colab 模型卡片
DeepLabv3+（带检查点）	Vision	微调和部署 DeepLab-v3 Plus 语义图像分割模型。	Colab 模型卡片
Faster R-CNN (Detectron2)	Vision	微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。	Colab 模型卡片
RetinaNet (Detectron2)	Vision	微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。	Colab 模型卡片
Mask R-CNN (Detectron2)	Vision	微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。	Colab 模型卡片
ControlNet	Vision	微调和部署 ControlNet 文字转图片生成模型。	Colab 模型卡片
MobileNet (TIMM)	Vision	微调和部署 MobileNet 图片分类模型的 PyTorch 实现。	Colab 模型卡片
MobileNetV2 (MediaPipe) Image Classification	Vision	使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。	Colab 模型卡片
MobileNetV2 (MediaPipe) Object Detection	Vision	使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。	Colab 模型卡片
MobileNet-MultiHW-AVG (MediaPipe)	Vision	使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。	Colab 模型卡片
DeiT	Vision	微调和部署 DeiT（数据高效的图片转换器）图片分类模型。	Colab 模型卡片
BEiT	Vision	微调和部署 BEiT（图片转换器的双向编码器表示法）图片分类模型。	Colab 模型卡片
Hand Gesture Recognition (MediaPipe)	Vision	使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。	Colab 模型卡片
Average Word Embedding Classifier (MediaPipe)	Vision	使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。	Colab 模型卡片
MobileBERT Classifier (MediaPipe)	Vision	使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。	Colab 模型卡片
MoViNet Video Clip Classification	视频	微调和部署 MoViNet 视频片段分类模型。	Colab 模型卡片
MoViNet Video Action Recognition	视频	微调和部署 MoViNet 动作识别推理模型。	Colab 模型卡片
Stable Diffusion XL LCM	Vision	部署此模型，它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成，可通过更少的步骤更快生成高质量的图片。	Colab 模型卡片
LLaVA 1.5	视觉、语言	部署 LLaVA 1.5 模型。	Colab 模型卡片
Pytorch-ZipNeRF	视觉、视频	训练 Pytorch-ZipNeRF 模型，它是 Pytorch 框架中最先进的 ZipNeRF 算法实现，专门用于根据 2D 图像进行高效准确的 3D 重建。	Colab 模型卡片
Mixtral	语言	部署 Mixtral 模型，它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。	模型卡片
Llama 2（量化）	语言	微调和部署 Meta 的 Llama 2 模型的量化版本。	Colab 模型卡片
LaMa (Large Mask Inpainting)	Vision	部署 LaMa，它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜，可以实现高分辨率的图像修复。	Colab 模型卡片
AutoGluon	表格	利用 AutoGluon，您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。	Colab 模型卡片
MaMMUT	语言、视觉	视觉编码器和文本解码器架构，适用于多模态任务，例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。	Colab 模型卡片
Whisper Large	语音	部署 Whisper Large，这是 OpenAI 用于自动语音识别 (ASR) 的先进模型。	Colab 模型卡片

Model Garden 支持的模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Google 的第一方模型列表

Model Garden 中提供的托管式模型列表

Model Garden 中提供的合作伙伴模型

Model Garden 中提供的开放模型

Model Garden 中使用开源调优或服务配方的模型列表

Model Garden 支持的模型