Google 的第一方模型列表
下表列出了 Model Garden 中提供的 Google 第一方模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Gemini 2.5 Flash(预览版) | 语言、音频、视觉 | 旨在平衡价格和性能的思考模型。 | 模型卡片 |
Gemini 2.5 Pro(预览版) | 语言、音频、视觉 | 思考模型,具有新一代功能,能力更强。 | 模型卡片 |
Gemini 2.0 Flash | 语言、音频、视觉 | 适用于所有日常任务的主要模型,性能有所提升,并支持实时 Live API。 | 模型卡片 |
Gemini 2.0 Flash-Lite | 语言、音频、视觉 | 最快、最具成本效益的 Flash 模型。与 1.5 相比,该模型以相同的价格和速度提供更高的质量。 | 模型卡片 |
Imagen for Image Generation | Vision | 使用文本提示大规模制作工作室级图片。您还可以使用此模型放大图片。 | 模型卡片 |
Imagen for Editing and Customization | Vision | 使用基础图片和文本提示,或使用参考图片和文本提示,修改或利用少量样本学习大规模制作工作室级图片。 | 模型卡片 |
Vertex Image Segmentation(预览版) | Vision | 使用文本提示或绘制涂鸦对图片进行分割。借助图片分割,您可以执行检测对象、移除图片背景或分割图片前景等操作。 | 模型卡片 |
Imagen for Captioning & VQA | 语言 | 为给定图片生成相关说明。 | 模型卡片 |
Embeddings for Text | 语言 | 根据文本生成向量,这些向量可用于语义搜索、文本分类和情感分析等下游任务。 | 模型卡片 |
Embeddings for Multimodal | Vision | 基于图片生成向量,这些向量可用于图片分类和图片搜索等下游任务。 | 模型卡片 |
Chirp 2 | 语音 | Chirp 2 是 Google 开发的多语言自动语音识别 (ASR) 模型,用于转写语音(语音转文字)。 与第一代 Chirp 模型相比,Chirp 2 的准确率和速度都有所提升,并提供了字词级时间戳、模型自适应和语音翻译等新功能。 | 模型卡片 |
Model Garden 中使用开源调优或服务配方的模型列表
下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Llama 4 | 语言、视觉 | 一系列使用混合专家 (MoE) 架构和早期融合技术的多模态模型。 | Colab 模型卡片 |
Llama 3.3 | 语言 | Meta Llama 3.3 多语言的大语言模型 (LLM) 是一种经过预训练的指令调优生成模型,大小为 70B(文本输入/文本输出)。 | 模型卡片 |
Flux | Vision | 一个具有 120 亿参数的 rectified flow transformer 模型,可根据文本说明生成高质量的图片。 | 模型卡片 |
提示保护 | 语言 | 保护 LLM 输入免遭越狱技术和间接注入。 | 模型卡片 |
Llama 3.2 | 语言 | 一组多语言的大语言模型,这些模型是经过预训练的指令调优生成模型,大小为 1B 和 3B。 | 模型卡片 |
Llama 3.2-Vision | 语言、视觉 | 一组多模态大语言模型,这些模型是经过预训练的指令调优图片推理生成模型,大小为 11B 和 90B。这些模型针对视觉识别、图片推理、标注和回答有关图片的一般问题进行了优化。 | 模型卡片 |
Llama Guard 3 | 语言 | 针对内容安全性分类进行了微调的 Llama-3.1-8B 预训练模型。 | 模型卡片 |
Qwen2 | 语言 | 部署基础大语言模型系列 Qwen2。 | Colab 模型卡片 |
Phi-3 | 语言 | 部署基础大语言模型系列 Phi-3。 | Colab 模型卡片 |
E5 | 语言 | 部署 E5(文本嵌入模型系列)。 | Colab 模型卡片 |
Instant ID | 语言、视觉 | 部署 Instant ID,这是一种保护身份的文字转图片生成模型。 | Colab 模型卡片 |
Llama 3 | 语言 | 在 Vertex AI 上使用 Meta 的 Llama 3 模型(8B、70B、405B)进行探索和构建。 | 模型卡片 |
Gemma 3n | 语言、视觉、音频 | 开放式权重模型(E2B、E4B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Gemma 3 | 语言、视觉 | 开放式权重模型(1B 纯文本、4B、12B、27B),基于创建 Google 的 Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Gemma 2 | 语言 | 开放式权重模型(9B、27B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Gemma | 语言 | 开放式权重模型(2B、7B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
CodeGemma | 语言 | 开放式权重模型(2B、7B)(专为代码生成和代码补全而设计的模型)使用用于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
PaliGemma 2 | 语言、视觉 | 开放式权重 3B、10B 和 28B 模型(专为图片标注任务和视觉问答任务而设计的模型),通过创建 Google 的 Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
PaliGemma | 语言、视觉 | 开放权重 3B 模型(专为图片标注任务和视觉问答任务而设计的模型)使用创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
ShieldGemma 2 | 语言、视觉 | 开放式权重 4B 模型,基于 Gemma 3 的 4B IT 检查点进行训练,用于对关键类别的图片进行安全分类,可接收图片并根据政策输出安全标签。 | 模型卡片 |
TxGemma | 语言 | 开放式权重模型(2B、9B、27B),专为治疗开发而设计,基于 Gemma 2 构建而成。 | 模型卡片 |
MedGemma | 语言、视觉 | 开放式权重模型(4B、27B),旨在提升医学文本和图像理解方面的性能。 | 模型卡片 |
MedSigLIP | 语言、视觉 | 开放式权重模型(4 亿参数视觉编码器和 4 亿参数文本编码器),旨在将医学图像和文本编码到通用嵌入空间中。 | 模型卡片 |
T5Gemma | 语言 | 开放式权重编码器-解码器模型(2B-2B、9B-9B、9B-2B、S-S、B-B、L-L、M-L、XL-XL),基于创建 Google 的 Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Vicuna v1.5 | 语言 | 部署 Vicuna v1.5 系列模型,它们是根据 LLama2 微调的基础模型,用于文本生成。 | 模型卡片 |
NLLB | 语言 | 部署 nllb 系列模型,用于多语言翻译。 | 模型卡片 Colab |
Mistral-7B | 语言 | 部署 Mistral-7B,这是一个用于文本生成的基础模型。 | 模型卡片 |
BioGPT | 语言 | 部署 BioGPT,这是一种用于生物医学领域的文本生成模型。 | 模型卡片 Colab |
BiomedCLIP | 语言、视觉 | 部署 BiomedCLIP,这是一种用于生物医学领域的多模态基础模型。 | 模型卡片 Colab |
ImageBind | 语言、视觉、 音频 |
部署 ImageBind,这是一种用于多模态嵌入的基础模型。 | 模型卡片 Colab |
DITO | 语言、视觉 | 微调和部署 DITO,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
OWL-ViT v2 | 语言、视觉 | 部署 OWL-ViT v2,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
FaceStylizer (Mediapipe) | Vision | 将人脸图像转换为新风格的生成式流水线。 | 模型卡片 Colab |
Llama 2 | 语言 | 在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型(7B、13B、70B)。 | 模型卡片 |
Code Llama | 语言 | 在 Vertex AI 上部署 Meta 的 Code Llama 基础模型(7B、13B、34B)。 | 模型卡片 |
Falcon-instruct | 语言 | 使用 PEFT 微调和部署 Falcon-instruct 模型(7B、40B)。 | Colab 模型卡片 |
OpenLLaMA | 语言 | 使用 PEFT 微调和部署 OpenLLaMA 模型(3B、7B、13B)。 | Colab 模型卡片 |
T5-FLAN | 语言 | 微调和部署 T5-FLAN(基础、小、大)。 | 模型卡片(包含微调流水线) |
BERT | 语言 | 使用 PEFT 微调和部署 BERT。 | Colab 模型卡片 |
BART-large-cnn | 语言 | 部署 BART,这是一个转换器编码器-编码器 (seq2seq) 模型,具有双向(类似于 BERT)编码器和自动回归(类似于 GPT)解码器。 | Colab 模型卡片 |
RoBERTa-large | 语言 | 使用 PEFT 微调和部署 RoBERTa-large。 | Colab 模型卡片 |
XLM-RoBERTa-large | 语言 | 使用 PEFT 微调和部署 XLM-RoBERTa-large(多语言版 RoBERTa)。 | Colab 模型卡片 |
Stable Diffusion XL v1.0 | 语言、视觉 | 部署 Stable Diffusion XL v1.0,它支持文字转图片。 | Colab 模型卡片 |
Stable Diffusion XL Lightning | 语言、视觉 | 部署 Stable Diffusion XL Lightning,这是一种文字转图片生成模型。 | Colab 模型卡片 |
Stable Diffusion v2.1 | 语言、视觉 | 使用 Dreambooth 微调和部署 Stable Diffusion v2.1(支持文字转图片)。 | Colab 模型卡片 |
Stable Diffusion 4x upscaler | 语言、视觉 | 部署 Stable Diffusion 4x upscaler,它支持文本条件式图片超分辨率。 | Colab 模型卡片 |
InstructPix2Pix | 语言、视觉 | 部署 InstructPix2Pix,它支持使用文本提示来编辑图片。 | Colab 模型卡片 |
Stable Diffusion Inpainting | 语言、视觉 | 微调和部署 Stable Diffusion Inpainting,它支持使用文本提示来修复遮盖图片。 | Colab 模型卡片 |
SAM | 语言、视觉 | 部署 Segment Anything,它支持零镜头图像分割。 | Colab 模型卡片 |
Pic2Word Composed Image Retrieval | 语言、视觉 | 部署 Pic2Word,它支持多模态合成图片检索。 | Colab 模型卡片 |
BLIP2 | 语言、视觉 | 部署 BLIP2,它支持图片描述和视觉问答。 | Colab 模型卡片 |
Open-CLIP | 语言、视觉 | 微调和部署 Open-CLIP,它支持零镜头分类。 | Colab 模型卡片 |
F-VLM | 语言、视觉 | 部署 F-VLM,它支持开放词汇图片对象检测。 | Colab 模型卡片 |
tfhub/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
EfficientNetV2 (TIMM) | Vision | 微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
EfficientNetLite (MediaPipe) | Vision | 通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。 | Colab 模型卡片 |
tfvision/vit | Vision | 微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
ViT (TIMM) | Vision | 微调和部署 ViT 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/ViT | Vision | 微调和部署 ViT 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
Proprietary/MaxViT | Vision | 微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
ViT (JAX) | Vision | 微调和部署 ViT 图片分类模型的 JAX 实现。 | Colab 模型卡片 |
tfvision/SpineNet | Vision | 微调和部署 SpineNet 对象检测模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
Proprietary/Spinenet | Vision | 微调和部署 SpineNet 对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
tfvision/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
Proprietary/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
YOLOv8 (Keras) | Vision | 微调和部署 YOLOv8 对象检测模型的 Keras 实现。 | Colab 模型卡片 |
tfvision/YOLOv7 | Vision | 微调和部署 YOLOv7 对象检测模型。 | Colab 模型卡片 |
ByteTrack Video Object Tracking | Vision | 使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。 | Colab 模型卡片 |
ResNeSt (TIMM) | Vision | 微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
ConvNeXt (TIMM) | Vision | 微调和部署 ConvNeXt,这是一种用于图片分类的纯卷积模型,其灵感来自 Vision Transformer 的设计。 | Colab 模型卡片 |
CspNet (TIMM) | Vision | 微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。 | Colab 模型卡片 |
Inception (TIMM) | Vision | 微调和部署 Inception 图片分类模型。 | Colab 模型卡片 |
DeepLabv3+(带检查点) | Vision | 微调和部署 DeepLab-v3 Plus 语义图像分割模型。 | Colab 模型卡片 |
Faster R-CNN (Detectron2) | Vision | 微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
RetinaNet (Detectron2) | Vision | 微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
Mask R-CNN (Detectron2) | Vision | 微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。 | Colab 模型卡片 |
ControlNet | Vision | 微调和部署 ControlNet 文字转图片生成模型。 | Colab 模型卡片 |
MobileNet (TIMM) | Vision | 微调和部署 MobileNet 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Image Classification | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Object Detection | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。 | Colab 模型卡片 |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | 使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。 | Colab 模型卡片 |
DeiT | Vision | 微调和部署 DeiT(数据高效的图片转换器)图片分类模型。 | Colab 模型卡片 |
BEiT | Vision | 微调和部署 BEiT(图片转换器的双向编码器表示法)图片分类模型。 | Colab 模型卡片 |
Hand Gesture Recognition (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。 | Colab 模型卡片 |
Average Word Embedding Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。 | Colab 模型卡片 |
MobileBERT Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。 | Colab 模型卡片 |
MoViNet Video Clip Classification | 视频 | 微调和部署 MoViNet 视频片段分类模型。 | Colab 模型卡片 |
MoViNet Video Action Recognition | 视频 | 微调和部署 MoViNet 动作识别推理模型。 | Colab 模型卡片 |
Stable Diffusion XL LCM | Vision | 部署此模型,它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成,可通过更少的步骤更快生成高质量的图片。 | Colab 模型卡片 |
LLaVA 1.5 | 视觉、语言 | 部署 LLaVA 1.5 模型。 | Colab 模型卡片 |
Pytorch-ZipNeRF | 视觉、视频 | 训练 Pytorch-ZipNeRF 模型,它是 Pytorch 框架中最先进的 ZipNeRF 算法实现,专门用于根据 2D 图像进行高效准确的 3D 重建。 | Colab 模型卡片 |
Mixtral | 语言 | 部署 Mixtral 模型,它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。 | 模型卡片 |
Llama 2(量化) | 语言 | 微调和部署 Meta 的 Llama 2 模型的量化版本。 | Colab 模型卡片 |
LaMa (Large Mask Inpainting) | Vision | 部署 LaMa,它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜,可以实现高分辨率的图像修复。 | Colab 模型卡片 |
AutoGluon | 表格 | 利用 AutoGluon,您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。 | Colab 模型卡片 |
MaMMUT | 语言、视觉 | 视觉编码器和文本解码器架构,适用于多模态任务,例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。 | Colab 模型卡片 |
Whisper Large | 语音 | 部署 Whisper Large,这是 OpenAI 用于自动语音识别 (ASR) 的先进模型。 | Colab 模型卡片 |
Model Garden 中提供的合作伙伴模型列表
某些合作伙伴模型在 Vertex AI Model Garden 上以托管式 API 的形式(也称为模型即服务)提供。下表列出了 Model Garden 中由 Google 合作伙伴提供的模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Claude Opus 4 | 语言、视觉 | Anthropic 目前最强大的模型,也是最先进的编码模型。Claude Opus 4 在需要集中精力并执行数千个步骤的长时间运行任务中可提供持续的性能,从而显著扩展了 AI 智能体可以解决的问题范围。 | 模型卡片 |
Claude Sonnet 4 | 语言、视觉 | Anthropic 的中型模型,具有出色的智能水平,适合大批量使用,例如编码、深入研究和智能体。 | 模型卡片 |
Anthropic 的 Claude 3.7 Sonnet | 语言、视觉 | 业界领先的编码模型,可为 AI 智能体提供支持,是首个提供扩展思考的 Claude 模型。 | 模型卡片 |
Anthropic 的 Claude 3.5 Sonnet v2 | 语言、视觉 | 升级后的 Claude 3.5 Sonnet 是用于处理实际的软件工程任务和智能体功能的先进模型。Claude 3.5 Sonnet 依靠与其前代产品相同的价格和速度实现了这些进步。 | 模型卡片 |
Anthropic 的 Claude 3.5 Haiku | 语言、视觉 | Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的新一代模型,非常适合速度和经济性重要的应用场景。 | 模型卡片 |
Anthropic 的 Claude 3 Opus | 语言 | 一个功能强大的 AI 模型,在处理高度复杂的任务方面的表现绝佳。它能够处理开放式提示和背后可能的方案,具有出色的流利度和真人理解能力。 | 模型卡片 |
Anthropic 的 Claude 3 Haiku | 语言 | Anthropic 最快的视觉和文本模型,能够近乎即时地回答基本的查询,旨在打造模仿人类互动的无缝 AI 体验。 | 模型卡片 |
Anthropic 的 Claude 3.5 Sonnet | 语言 | Claude 3.5 Sonnet 凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本,在 Anthropic 的多种评估中优于 Anthropic 的 Claude 3 Opus。 | 模型卡片 |
DeepSeek-R1-0528(预览版) | 语言 | DeepSeek 最新版本的 DeepSeek R1 模型。 | 模型卡片 |
Jamba 1.5 Large(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量,并且价格与同类别的其他模型相比具有竞争力。 | 模型卡片 |
Jamba 1.5 Mini(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。 | 模型卡片 |
Llama 4 Maverick 17B-128E(正式版) | 语言、视觉 | 最大、最强大的 Llama 4 模型,具有编码、推理和图像功能。Llama 4 Maverick 17B-128E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。 | 模型卡片 |
Llama 4 Scout 17B-16E(正式版) | 语言、视觉 | Llama 4 Scout 17B-16E 在同类模型中取得了出色的结果,在多项基准测试中超越了之前的 Llama 模型以及其他开放模型和专有模型。Llama 4 Scout 17B-16E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。 | 模型卡片 |
Llama 3.3(正式版) | 语言 | Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。 | 模型卡片 |
Llama 3.2(预览版) | 语言、视觉 | 中型 90B 多模态模型,可支持图片推理,例如图表和图形分析以及图片标注。 | 模型卡片 |
Llama 3.1(GA和预览版) | 语言 |
一组针对多语言对话应用场景优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 Llama 3.1 405B 已正式发布 (GA),其定价方式为每 100 万个 token 1 美元。查看价格。 Llama 3.1 8B 和 Llama 3.1 70B 目前处于预览版阶段,可免费使用。 |
模型卡片 |
Mistral OCR (25.05) | 语言、视觉 | Mistral OCR (25.05) 是一款用于文档理解的光学字符识别 API。模型能够理解文档的每个元素,例如媒体、文本、表格和方程式。 | 模型卡片 |
Mistral Small 3.1 (25.03) | 语言 | Mistral Small 3.1 (25.03) 是 Mistral Small 模型的最新版本,具有多模态功能和更长的上下文长度。 | 模型卡片 |
Mistral Large (24.11) | 语言 | Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一个版本,提高了推理和函数调用功能。 | 模型卡片 |
Codestral (25.01) | 代码 | 一种专为代码生成(包括填充中间代码和代码补全)而设计的先进模型。 | 模型卡片 |