Model Garden 支援的模型

Google 第一方模型清單

下表列出 Model Garden 中可用的 Google 第一方模型:

模型名稱 模態 說明 快速入門導覽課程
Gemini 2.5 Flash (預先發布版) 語言、音訊、視覺 思考模型,旨在兼顧價格和效能。 Model Card
Gemini 2.5 Pro (預先發布版) 語言、音訊、視覺 思考模型,具備新一代功能,且能力有所提升。 Model Card
Gemini 2.0 Flash 語言、音訊、視覺 這款模型是處理所有日常工作的主力,效能更強大,並支援即時 Live API。 Model Card
Gemini 2.0 Flash-Lite 語言、音訊、視覺 這是速度最快且最具成本效益的 Flash 模型。以相同的價格和速度,提供比 1.5 更優異的品質。 Model Card
用於圖像生成的 Imagen Vision 使用文字提示大規模生成攝影棚品質的圖像。您也可以使用這個模型提高圖片畫質。 Model Card
Imagen 編輯和自訂功能 Vision 使用原始圖片和文字提示,或參考圖片和文字提示,編輯或運用少樣本學習技術,大規模製作攝影棚品質的圖片。 Model Card
Vertex 影像分割 (預先發布版) Vision 使用文字提示或塗鴉來區隔圖片。圖片區隔功能可讓您偵測物件、移除圖片背景,或區隔圖片前景。 Model Card
Imagen for Captioning & VQA 語言 為指定圖片生成相關說明。 Model Card
多模態專用的 Embeddings Vision 根據圖片生成向量,可用於圖片分類和圖片搜尋等下游工作。 Model Card
Chirp 2 語音 Chirp 2 是 Google 開發的多語言自動語音辨識 (ASR) 模型,可轉錄語音 (語音轉文字)。相較於第一代 Chirp 模型,Chirp 2 的準確度和速度更加出色,並提供個別字詞時間戳記、模型調整和語音翻譯等新功能。 Model Card

Model Garden 中提供開放原始碼微調或服務配方的模型清單

下表列出 Model Garden 中支援開放原始碼微調或服務配方的 OSS 模型:

模型名稱 模態 說明 快速入門導覽課程
Llama 4 語言、視覺 一系列多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 Colab
模型資訊卡
Llama 3.3 語言 Meta Llama 3.3 多語言大型語言模型 (LLM) 是經過預先訓練和指令調整的生成模型,大小為 700 億 (文字輸入/文字輸出)。 Model Card
Flux Vision 這款模型有 120 億個參數,採用修正流程 Transformer 模型,可根據文字描述生成高品質圖片。 Model Card
Prompt Guard 語言 防範越獄技術和間接注入,保護大型語言模型輸入內容。 Model Card
Llama 3.2 語言 這是一系列多語言大型語言模型,包含 10 億和 30 億個參數的預先訓練和指令調整生成模型。 Model Card
Llama 3.2-Vision 語言、視覺 這是一系列多模態大型語言模型,經過預先訓練和指令微調,可生成圖像推理模型,大小為 110 億和 900 億。這類模型經過最佳化,可進行影像辨識、圖像推論、生成說明文字,以及回答圖片相關的一般問題。 Model Card
Llama Guard 3 語言 經過微調的 Llama-3.1-8B 預先訓練模型,適用於內容安全分類。 Model Card
Qwen2 語言 部署基礎大型語言模型系列 Qwen2。 Colab
模型資訊卡
Phi-3 語言 部署基礎大型語言模型系列 Phi-3。 Colab
模型資訊卡
E5 語言 部署 E5 系列文字嵌入模型。 Colab
模型資訊卡
即時 ID 語言、視覺 部署 Instant ID,這是一種可保留身分資訊的文字轉圖像生成模型。 Colab
模型資訊卡
Llama 3 語言 在 Vertex AI 中探索及建構 Meta 的 Llama 3 模型 (8B、70B、405B)。 Model Card
Gemma 3 語言、視覺 開放權重模型 (10 億個僅限文字、40 億個、120 億個、270 億個),採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
Gemma 2 語言 開放權重模型 (9B、27B):採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
Gemma 語言 開放權重模型 (2B、7B),採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
CodeGemma 語言 開放權重模型 (2B、7B),專為程式碼生成和程式碼補全而設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
PaliGemma 2 語言、視覺 開放權重 3B、10B 和 28B 模型,專為圖像說明和視覺問答工作設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
PaliGemma 語言、視覺 開放權重 3B 模型,專為圖片說明文字和視覺問答工作而設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 Model Card
ShieldGemma 2 語言、視覺 以 Gemma 3 的 4B IT 檢查點訓練的開放權重 4B 模型,可針對主要類別的圖片安全分類,輸入圖片並根據政策輸出安全標籤。 Model Card
TxGemma 語言 以 Gemma 2 為基礎建構的開放權重模型 (2B、9B、27B),專為治療開發而設計。 Model Card
Vicuna v1.5 語言 部署 Vicuna v1.5 系列模型,這些模型是從 LLama2 微調而來的基礎模型,可用於生成文字。 Model Card
NLLB 語言 部署 NLLB 系列模型,進行多語言翻譯。 模型資訊卡
Colab
Mistral-7B 語言 部署文字生成基礎模型 Mistral-7B。 Model Card
BioGPT 語言 部署 BioGPT,這是生物醫學領域的文字生成模型。 模型資訊卡
Colab
BiomedCLIP 語言、視覺 部署 BiomedCLIP,這是生物醫學領域的多模態基礎模型。 模型資訊卡
Colab
ImageBind 語言、視覺、
音訊
部署多模態嵌入的基礎模型 ImageBind。 模型資訊卡
Colab
DITO 語言、視覺 微調及部署 DITO,這是用於開放式詞彙物件偵測工作的多模態基礎模型。 模型資訊卡
Colab
OWL-ViT v2 語言、視覺 部署 OWL-ViT v2,這是用於開放式詞彙物件偵測工作的多模態基礎模型。 模型資訊卡
Colab
FaceStylizer (Mediapipe) Vision 生成管道,可將人臉圖片轉換為新樣式。 模型資訊卡
Colab
Llama 2 語言 在 Vertex AI 上微調及部署 Meta 的 Llama 2 基礎模型 (7B、13B、70B)。 Model Card
Code Llama 語言 在 Vertex AI 上部署 Meta 的 Code Llama 基礎模型 (7B、13B、34B)。 Model Card
Falcon-instruct 語言 使用 PEFT 微調及部署 Falcon-instruct 模型 (7B、40B)。 Colab
模型資訊卡
OpenLLaMA 語言 使用 PEFT 微調及部署 OpenLLaMA 模型 (3B、7B、13B)。 Colab
模型資訊卡
T5-FLAN 語言 微調及部署 T5-FLAN (基礎、小型、大型)。 模型資訊卡 (包含微調管道)
BERT 語言 使用 PEFT 微調及部署 BERT。 Colab
模型資訊卡
BART-large-cnn 語言 部署 BART,這是一種 Transformer 編碼器-編碼器 (seq2seq) 模型,具有雙向 (類似 BERT) 編碼器和自迴歸 (類似 GPT) 解碼器。 Colab
模型資訊卡
RoBERTa-large 語言 使用 PEFT 微調及部署 RoBERTa-large。 Colab
模型資訊卡
XLM-RoBERTa-large 語言 使用 PEFT 微調及部署 XLM-RoBERTa-large (RoBERTa 的多語言版本)。 Colab
模型資訊卡
Stable Diffusion XL v1.0 語言、視覺 部署 Stable Diffusion XL v1.0,支援文字轉圖片生成功能。 Colab
模型資訊卡
Stable Diffusion XL Lightning 語言、視覺 部署文字轉圖像生成模型 Stable Diffusion XL Lightning。 Colab
模型資訊卡
Stable Diffusion v2.1 語言、視覺 使用 Dreambooth 微調及部署 Stable Diffusion v2.1 (支援文字轉圖片生成功能)。 Colab
模型資訊卡
Stable Diffusion 4 倍放大器 語言、視覺 部署 Stable Diffusion 4x 放大器,支援以文字為條件的圖像超高解析度。 Colab
模型資訊卡
InstructPix2Pix 語言、視覺 部署 InstructPix2Pix,這項模型支援使用文字提示編輯圖片。 Colab
模型資訊卡
Stable Diffusion 塗改 語言、視覺 微調及部署 Stable Diffusion Inpainting,支援使用文字提示修復遮罩圖片。 Colab
模型資訊卡
SAM 語言、視覺 部署 Segment Anything,支援零樣本圖片區隔。 Colab
模型資訊卡
Pic2Word 組合圖片擷取 語言、視覺 部署 Pic2Word,支援多模態複合圖片檢索。 Colab
模型資訊卡
BLIP2 語言、視覺 部署 BLIP2,支援圖像說明和圖像問答。 Colab
模型資訊卡
Open-CLIP 語言、視覺 微調及部署 Open-CLIP,支援零樣本分類。 Colab
模型資訊卡
F-VLM 語言、視覺 部署 F-VLM,支援開放式詞彙圖片物件偵測。 Colab
模型資訊卡
tfhub/EfficientNetV2 Vision 微調及部署 EfficientNetV2 圖片分類模型的 TensorFlow Vision 實作。 Colab
模型資訊卡
EfficientNetV2 (TIMM) Vision 微調及部署 EfficientNetV2 圖片分類模型的 PyTorch 實作。 Colab
模型資訊卡
專有/EfficientNetV2 Vision 微調及部署 EfficientNetV2 圖片分類模型的 Google 專屬檢查點。 Colab
模型資訊卡
EfficientNetLite (MediaPipe) Vision 透過 MediaPipe Model Maker 微調 EfficientNetLite 圖片分類模型。 Colab
模型資訊卡
tfvision/vit Vision 微調及部署 ViT 圖片分類模型的 TensorFlow Vision 實作。 Colab
模型資訊卡
ViT (TIMM) Vision 微調及部署 ViT 圖片分類模型的 PyTorch 實作。 Colab
模型資訊卡
專有/ViT Vision 微調及部署 ViT 圖片分類模型的 Google 專屬檢查點。 Colab
模型資訊卡
專有/MaxViT Vision 微調及部署 MaxViT 混合式 (CNN + ViT) 圖片分類模型的 Google 專屬檢查點。 Colab
模型資訊卡
ViT (JAX) Vision 微調及部署 ViT 圖片分類模型的 JAX 實作。 Colab
模型資訊卡
tfvision/SpineNet Vision 微調及部署 SpineNet 物件偵測模型的 TensorFlow Vision 實作項目。 Colab
模型資訊卡
專有/Spinenet Vision 微調及部署 SpineNet 物件偵測模型的 Google 專屬檢查點。 Colab
模型資訊卡
tfvision/YOLO Vision 微調及部署 YOLO 單階段物件偵測模型的 TensorFlow Vision 實作項目。 Colab
模型資訊卡
專屬/YOLO Vision 微調及部署 YOLO 單階段物件偵測模型的 Google 專屬檢查點。 Colab
模型資訊卡
YOLOv8 (Keras) Vision 微調並部署 YOLOv8 模型,以 Keras 實作物件偵測。 Colab
模型資訊卡
tfvision/YOLOv7 Vision 微調及部署 YOLOv7 模型,以進行物件偵測。 Colab
模型資訊卡
ByteTrack 影片物件追蹤 Vision 使用 ByteTrack 追蹤器執行影片物件追蹤的批次預測。 Colab
模型資訊卡
ResNeSt (TIMM) Vision 微調及部署 ResNeSt 圖片分類模型的 PyTorch 實作。 Colab
模型資訊卡
ConvNeXt (TIMM) Vision 微調及部署 ConvNeXt,這是以 Vision Transformer 設計為靈感的純迴旋模型,用於圖片分類。 Colab
模型資訊卡
CspNet (TIMM) Vision 微調及部署 CSPNet (Cross Stage Partial Network) 圖片分類模型。 Colab
模型資訊卡
Inception (TIMM) Vision 微調及部署 Inception 圖片分類模型。 Colab
模型資訊卡
DeepLabv3+ (含檢查點) Vision 微調及部署 DeepLab-v3 Plus 模型,進行語意圖片區隔。 Colab
模型資訊卡
Faster R-CNN (Detectron2) Vision 微調並部署 Faster R-CNN 模型的 Detectron2 實作項目,以進行圖片物件偵測。 Colab
模型資訊卡
RetinaNet (Detectron2) Vision 微調並部署 RetinaNet 模型的 Detectron2 實作項目,以偵測圖片中的物件。 Colab
模型資訊卡
Mask R-CNN (Detectron2) Vision 微調及部署 Mask R-CNN 模型的 Detectron2 實作項目,以進行圖片物件偵測和區隔。 Colab
模型資訊卡
ControlNet Vision 微調及部署 ControlNet 文字轉圖像生成模型。 Colab
模型資訊卡
MobileNet (TIMM) Vision 微調及部署 MobileNet 圖片分類模型的 PyTorch 實作。 Colab
模型資訊卡
MobileNetV2 (MediaPipe) 圖片分類 Vision 使用 MediaPipe Model Maker 微調 MobileNetV2 圖片分類模型。 Colab
模型資訊卡
MobileNetV2 (MediaPipe) 物件偵測 Vision 使用 MediaPipe 模型製作工具,微調 MobileNetV2 物件偵測模型。 Colab
模型資訊卡
MobileNet-MultiHW-AVG (MediaPipe) Vision 使用 MediaPipe 模型製作工具,微調 MobileNet-MultiHW-AVG 物件偵測模型。 Colab
模型資訊卡
DeiT Vision 微調及部署 DeiT (資料效率高的圖像轉換器) 模型,用於圖片分類。 Colab
模型資訊卡
BEiT Vision 微調及部署 BEiT (基於圖像 Transformer 的雙向編碼器表示技術) 模型,進行圖片分類。 Colab
模型資訊卡
手勢辨識 (MediaPipe) Vision 使用 MediaPipe 微調及部署裝置端手勢辨識模型。 Colab
模型資訊卡
平均字詞嵌入分類器 (MediaPipe) Vision 使用 MediaPipe 在裝置上微調及部署平均字詞嵌入分類器模型。 Colab
模型資訊卡
MobileBERT 分類器 (MediaPipe) Vision 使用 MediaPipe 在裝置上微調及部署 MobileBERT 分類器模型。 Colab
模型資訊卡
MoViNet 影片片段分類 影片 微調及部署 MoViNet 影片片段分類模型。 Colab
模型資訊卡
MoViNet 影片動作辨識 影片 微調及部署 MoViNet 模型,以進行動作辨識推論。 Colab
模型資訊卡
Stable Diffusion XL LCM Vision 部署這個模型,使用潛在一致性模型 (LCM) 強化潛在擴散模型中的文字轉圖像生成功能,以更少的步驟快速生成高品質圖像。 Colab
模型資訊卡
LLaVA 1.5 Vision、Language 部署 LLaVA 1.5 模型。 Colab
模型資訊卡
Pytorch-ZipNeRF Vision、Video 訓練 Pytorch-ZipNeRF 模型,這是 Pytorch 架構中 ZipNeRF 演算法的頂尖實作項目,專為從 2D 圖片有效率且準確地重建 3D 模型而設計。 Colab
模型資訊卡
Mixtral 語言 部署 Mixtral 模型,這是由 Mistral AI 開發的專家混合 (MoE) 大型語言模型 (LLM)。 Model Card
Llama 2 (量化) 語言 微調及部署 Meta 的 Llama 2 模型量化版本。 Colab
模型資訊卡
LaMa (Large Mask Inpainting,大型遮罩修復) Vision 部署 LaMa,該模型使用快速傅立葉捲積 (FFC)、高感受野感知損失和大型訓練遮罩,可進行解析度穩定的圖像修復。 Colab
模型資訊卡
AutoGluon 表格 您可以使用 AutoGluon 訓練及部署高準確度的機器學習和深度學習模型,以處理表格資料。 Colab
模型資訊卡
MaMMUT 語言、視覺 視覺編碼器和文字解碼器架構,適用於多模態工作,例如視覺問答、圖像文字擷取、文字圖像擷取,以及生成多模態嵌入。 Colab
模型資訊卡
Whisper Large 語音 部署 Whisper Large,這是 OpenAI 最先進的自動語音辨識 (ASR) 模型。 Colab
模型資訊卡

Model Garden 中提供的合作夥伴模型清單

部分合作夥伴模型是以代管 API 形式,在 Vertex AI Model Garden 中提供 (又稱「模型即服務」)。下表列出 Model Garden 中 Google 合作夥伴提供的模型:

模型名稱 模態 說明 快速入門導覽課程
Claude Opus 4 語言、視覺 這是 Anthropic 至今最強大的模型,也是最先進的程式設計模型。Claude Opus 4 能夠持續執行需要專注投入和數千個步驟的長期工作,大幅擴展 AI 代理程式可解決的問題。 Model Card
Claude Sonnet 4 語言、視覺 Anthropic 的中型模型,具備卓越的智慧,適合用於大量用途,例如程式設計、深入研究和代理程式。 Model Card
Anthropic 的 Claude 3.7 Sonnet 語言、視覺 業界領先的程式設計模型,可為 AI 代理提供支援,也是第一個可以廣泛思考的 Claude 模型。 Model Card
Anthropic 的 Claude 3.5 Sonnet v2 語言、視覺 全新升級的 Claude 3.5 Sonnet 是最先進的模型,能實際處理軟體工程任務,以及建構虛擬服務專員功能。新版 Claude 3.5 Sonnet 的功能取得了顯著進展,而價格和速度表現卻維持不變。 Model Card
Anthropic 的 Claude 3.5 Haiku 語言、視覺 Claude 3.5 Haiku 是 Anthropic 新一代速度最快且最具成本效益的模型,是追求速度表現和性價比的最佳選擇。 Model Card
Anthropic 的 Claude 3 Opus 語言 功能強大的 AI 模型,能夠在執行高複雜度工作時取得最佳成效。這個模型具備令人驚豔的流暢度和類似人類的理解能力,可掌握開放式提示與不可視情境。 Model Card
Anthropic Claude 3 Haiku 語言 Anthropic 最快速的視覺與文字模型,能夠近乎即時地回覆基本查詢,讓使用者享有與真人互動相似的流暢 AI 體驗。 Model Card
Anthropic 的 Claude 3.5 Sonnet 語言 在 Anthropic 進行的一系列評測中,Claude 3.5 Sonnet 的表現皆優於 Anthropic 的 Claude 3 Opus,而速度與成本方面的表現則等同於 Anthropic 的中階模型 Claude 3 Sonnet。 Model Card
DeepSeek-R1-0528 (預先發布版) 語言 DeepSeek 最新版的 DeepSeek R1 模型。 Model Card
Jamba 1.5 Large (預先發布版) 語言 AI21 Labs 的 Jamba 1.5 Large 旨在提供優質回覆、高輸送量,以及相較於同類大小的其他模型更具競爭力的價格。 Model Card
Jamba 1.5 Mini (預先發布版) 語言 AI21 Labs 的 Jamba 1.5 Mini 在品質、輸送量和低成本之間取得良好平衡。 Model Card
Llama 4 Maverick 17B-128E (GA) 語言、視覺 這是最大型且功能最強大的 Llama 4 模型,具備程式設計、推理和圖像功能。Llama 4 Maverick 17B-128E 是多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 Model Card
Llama 4 Scout 17B-16E (GA) 語言、視覺 Llama 4 Scout 17B-16E 在同類模型中表現優異,在多項基準測試中,都優於先前的 Llama 世代,以及其他開放原始碼和專有模型。Llama 4 Scout 17B-16E 是一種多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 Model Card
Llama 3.3 (GA) 語言 Llama 3.3 是純文字 70B 指令調整模型,用於純文字應用程式時,效能比 Llama 3.1 70B 和 Llama 3.2 90B 更強大。此外,在某些應用程式中,Llama 3.3 70B 的效能已接近 Llama 3.1 405B。 Model Card
Llama 3.2 (預先發布版) 語言、視覺 中型 900 億參數多模態模型,可支援圖像推理,例如圖表分析和圖像說明。 Model Card
Llama 3.1 (GA預先發布版) 語言

這是一系列多語言 LLM,專為多語言對話用途最佳化,在常見的業界基準中,表現優於許多可用的開放原始碼和封閉式即時通訊模型。

Llama 3.1 405B 現已正式發布 (GA),價格為每 100 萬個權杖 $1 美元。請參閱定價

Llama 3.1 8B 和 Llama 3.1 70B 均為搶先版,可免費使用。

Model Card
Mistral OCR (25.05) 語言、視覺 Mistral OCR (25.05) 是一種光學字元辨識 API,可協助理解文件。模型會理解文件中的每個元素,例如媒體、文字、表格和方程式。 Model Card
Mistral Small 3.1 (25.03) 語言 Mistral Small 3.1 (25.03) 是 Mistral Small 模型的最新版本,具備多模態功能和更長的脈絡長度。 Model Card
Mistral Large (24.11) 語言 Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一個版本,現在具備更強大的推論和函式呼叫功能。 Model Card
Codestral (25.01) 程式碼 專為生成程式碼設計的先進模型,包括填空和程式碼完成。 Model Card