Google 第一方模型清單
下表列出 Model Garden 中可用的 Google 第一方模型:
模型名稱 | 模態 | 說明 | 快速入門導覽課程 |
---|---|---|---|
Gemini 2.5 Flash (預先發布版) | 語言、音訊、視覺 | 思考模型,旨在兼顧價格和效能。 | Model Card |
Gemini 2.5 Pro (預先發布版) | 語言、音訊、視覺 | 思考模型,具備新一代功能,且能力有所提升。 | Model Card |
Gemini 2.0 Flash | 語言、音訊、視覺 | 這款模型是處理所有日常工作的主力,效能更強大,並支援即時 Live API。 | Model Card |
Gemini 2.0 Flash-Lite | 語言、音訊、視覺 | 這是速度最快且最具成本效益的 Flash 模型。以相同的價格和速度,提供比 1.5 更優異的品質。 | Model Card |
用於圖像生成的 Imagen | Vision | 使用文字提示大規模生成攝影棚品質的圖像。您也可以使用這個模型提高圖片畫質。 | Model Card |
Imagen 編輯和自訂功能 | Vision | 使用原始圖片和文字提示,或參考圖片和文字提示,編輯或運用少樣本學習技術,大規模製作攝影棚品質的圖片。 | Model Card |
Vertex 影像分割 (預先發布版) | Vision | 使用文字提示或塗鴉來區隔圖片。圖片區隔功能可讓您偵測物件、移除圖片背景,或區隔圖片前景。 | Model Card |
Imagen for Captioning & VQA | 語言 | 為指定圖片生成相關說明。 | Model Card |
多模態專用的 Embeddings | Vision | 根據圖片生成向量,可用於圖片分類和圖片搜尋等下游工作。 | Model Card |
Chirp 2 | 語音 | Chirp 2 是 Google 開發的多語言自動語音辨識 (ASR) 模型,可轉錄語音 (語音轉文字)。相較於第一代 Chirp 模型,Chirp 2 的準確度和速度更加出色,並提供個別字詞時間戳記、模型調整和語音翻譯等新功能。 | Model Card |
Model Garden 中提供開放原始碼微調或服務配方的模型清單
下表列出 Model Garden 中支援開放原始碼微調或服務配方的 OSS 模型:
模型名稱 | 模態 | 說明 | 快速入門導覽課程 |
---|---|---|---|
Llama 4 | 語言、視覺 | 一系列多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 | Colab 模型資訊卡 |
Llama 3.3 | 語言 | Meta Llama 3.3 多語言大型語言模型 (LLM) 是經過預先訓練和指令調整的生成模型,大小為 700 億 (文字輸入/文字輸出)。 | Model Card |
Flux | Vision | 這款模型有 120 億個參數,採用修正流程 Transformer 模型,可根據文字描述生成高品質圖片。 | Model Card |
Prompt Guard | 語言 | 防範越獄技術和間接注入,保護大型語言模型輸入內容。 | Model Card |
Llama 3.2 | 語言 | 這是一系列多語言大型語言模型,包含 10 億和 30 億個參數的預先訓練和指令調整生成模型。 | Model Card |
Llama 3.2-Vision | 語言、視覺 | 這是一系列多模態大型語言模型,經過預先訓練和指令微調,可生成圖像推理模型,大小為 110 億和 900 億。這類模型經過最佳化,可進行影像辨識、圖像推論、生成說明文字,以及回答圖片相關的一般問題。 | Model Card |
Llama Guard 3 | 語言 | 經過微調的 Llama-3.1-8B 預先訓練模型,適用於內容安全分類。 | Model Card |
Qwen2 | 語言 | 部署基礎大型語言模型系列 Qwen2。 | Colab 模型資訊卡 |
Phi-3 | 語言 | 部署基礎大型語言模型系列 Phi-3。 | Colab 模型資訊卡 |
E5 | 語言 | 部署 E5 系列文字嵌入模型。 | Colab 模型資訊卡 |
即時 ID | 語言、視覺 | 部署 Instant ID,這是一種可保留身分資訊的文字轉圖像生成模型。 | Colab 模型資訊卡 |
Llama 3 | 語言 | 在 Vertex AI 中探索及建構 Meta 的 Llama 3 模型 (8B、70B、405B)。 | Model Card |
Gemma 3 | 語言、視覺 | 開放權重模型 (10 億個僅限文字、40 億個、120 億個、270 億個),採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
Gemma 2 | 語言 | 開放權重模型 (9B、27B):採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
Gemma | 語言 | 開放權重模型 (2B、7B),採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
CodeGemma | 語言 | 開放權重模型 (2B、7B),專為程式碼生成和程式碼補全而設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
PaliGemma 2 | 語言、視覺 | 開放權重 3B、10B 和 28B 模型,專為圖像說明和視覺問答工作設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
PaliGemma | 語言、視覺 | 開放權重 3B 模型,專為圖片說明文字和視覺問答工作而設計,採用與建立 Google Gemini 模型時相同的研究成果和技術。 | Model Card |
ShieldGemma 2 | 語言、視覺 | 以 Gemma 3 的 4B IT 檢查點訓練的開放權重 4B 模型,可針對主要類別的圖片安全分類,輸入圖片並根據政策輸出安全標籤。 | Model Card |
TxGemma | 語言 | 以 Gemma 2 為基礎建構的開放權重模型 (2B、9B、27B),專為治療開發而設計。 | Model Card |
Vicuna v1.5 | 語言 | 部署 Vicuna v1.5 系列模型,這些模型是從 LLama2 微調而來的基礎模型,可用於生成文字。 | Model Card |
NLLB | 語言 | 部署 NLLB 系列模型,進行多語言翻譯。 | 模型資訊卡 Colab |
Mistral-7B | 語言 | 部署文字生成基礎模型 Mistral-7B。 | Model Card |
BioGPT | 語言 | 部署 BioGPT,這是生物醫學領域的文字生成模型。 | 模型資訊卡 Colab |
BiomedCLIP | 語言、視覺 | 部署 BiomedCLIP,這是生物醫學領域的多模態基礎模型。 | 模型資訊卡 Colab |
ImageBind | 語言、視覺、 音訊 |
部署多模態嵌入的基礎模型 ImageBind。 | 模型資訊卡 Colab |
DITO | 語言、視覺 | 微調及部署 DITO,這是用於開放式詞彙物件偵測工作的多模態基礎模型。 | 模型資訊卡 Colab |
OWL-ViT v2 | 語言、視覺 | 部署 OWL-ViT v2,這是用於開放式詞彙物件偵測工作的多模態基礎模型。 | 模型資訊卡 Colab |
FaceStylizer (Mediapipe) | Vision | 生成管道,可將人臉圖片轉換為新樣式。 | 模型資訊卡 Colab |
Llama 2 | 語言 | 在 Vertex AI 上微調及部署 Meta 的 Llama 2 基礎模型 (7B、13B、70B)。 | Model Card |
Code Llama | 語言 | 在 Vertex AI 上部署 Meta 的 Code Llama 基礎模型 (7B、13B、34B)。 | Model Card |
Falcon-instruct | 語言 | 使用 PEFT 微調及部署 Falcon-instruct 模型 (7B、40B)。 | Colab 模型資訊卡 |
OpenLLaMA | 語言 | 使用 PEFT 微調及部署 OpenLLaMA 模型 (3B、7B、13B)。 | Colab 模型資訊卡 |
T5-FLAN | 語言 | 微調及部署 T5-FLAN (基礎、小型、大型)。 | 模型資訊卡 (包含微調管道) |
BERT | 語言 | 使用 PEFT 微調及部署 BERT。 | Colab 模型資訊卡 |
BART-large-cnn | 語言 | 部署 BART,這是一種 Transformer 編碼器-編碼器 (seq2seq) 模型,具有雙向 (類似 BERT) 編碼器和自迴歸 (類似 GPT) 解碼器。 | Colab 模型資訊卡 |
RoBERTa-large | 語言 | 使用 PEFT 微調及部署 RoBERTa-large。 | Colab 模型資訊卡 |
XLM-RoBERTa-large | 語言 | 使用 PEFT 微調及部署 XLM-RoBERTa-large (RoBERTa 的多語言版本)。 | Colab 模型資訊卡 |
Stable Diffusion XL v1.0 | 語言、視覺 | 部署 Stable Diffusion XL v1.0,支援文字轉圖片生成功能。 | Colab 模型資訊卡 |
Stable Diffusion XL Lightning | 語言、視覺 | 部署文字轉圖像生成模型 Stable Diffusion XL Lightning。 | Colab 模型資訊卡 |
Stable Diffusion v2.1 | 語言、視覺 | 使用 Dreambooth 微調及部署 Stable Diffusion v2.1 (支援文字轉圖片生成功能)。 | Colab 模型資訊卡 |
Stable Diffusion 4 倍放大器 | 語言、視覺 | 部署 Stable Diffusion 4x 放大器,支援以文字為條件的圖像超高解析度。 | Colab 模型資訊卡 |
InstructPix2Pix | 語言、視覺 | 部署 InstructPix2Pix,這項模型支援使用文字提示編輯圖片。 | Colab 模型資訊卡 |
Stable Diffusion 塗改 | 語言、視覺 | 微調及部署 Stable Diffusion Inpainting,支援使用文字提示修復遮罩圖片。 | Colab 模型資訊卡 |
SAM | 語言、視覺 | 部署 Segment Anything,支援零樣本圖片區隔。 | Colab 模型資訊卡 |
Pic2Word 組合圖片擷取 | 語言、視覺 | 部署 Pic2Word,支援多模態複合圖片檢索。 | Colab 模型資訊卡 |
BLIP2 | 語言、視覺 | 部署 BLIP2,支援圖像說明和圖像問答。 | Colab 模型資訊卡 |
Open-CLIP | 語言、視覺 | 微調及部署 Open-CLIP,支援零樣本分類。 | Colab 模型資訊卡 |
F-VLM | 語言、視覺 | 部署 F-VLM,支援開放式詞彙圖片物件偵測。 | Colab 模型資訊卡 |
tfhub/EfficientNetV2 | Vision | 微調及部署 EfficientNetV2 圖片分類模型的 TensorFlow Vision 實作。 | Colab 模型資訊卡 |
EfficientNetV2 (TIMM) | Vision | 微調及部署 EfficientNetV2 圖片分類模型的 PyTorch 實作。 | Colab 模型資訊卡 |
專有/EfficientNetV2 | Vision | 微調及部署 EfficientNetV2 圖片分類模型的 Google 專屬檢查點。 | Colab 模型資訊卡 |
EfficientNetLite (MediaPipe) | Vision | 透過 MediaPipe Model Maker 微調 EfficientNetLite 圖片分類模型。 | Colab 模型資訊卡 |
tfvision/vit | Vision | 微調及部署 ViT 圖片分類模型的 TensorFlow Vision 實作。 | Colab 模型資訊卡 |
ViT (TIMM) | Vision | 微調及部署 ViT 圖片分類模型的 PyTorch 實作。 | Colab 模型資訊卡 |
專有/ViT | Vision | 微調及部署 ViT 圖片分類模型的 Google 專屬檢查點。 | Colab 模型資訊卡 |
專有/MaxViT | Vision | 微調及部署 MaxViT 混合式 (CNN + ViT) 圖片分類模型的 Google 專屬檢查點。 | Colab 模型資訊卡 |
ViT (JAX) | Vision | 微調及部署 ViT 圖片分類模型的 JAX 實作。 | Colab 模型資訊卡 |
tfvision/SpineNet | Vision | 微調及部署 SpineNet 物件偵測模型的 TensorFlow Vision 實作項目。 | Colab 模型資訊卡 |
專有/Spinenet | Vision | 微調及部署 SpineNet 物件偵測模型的 Google 專屬檢查點。 | Colab 模型資訊卡 |
tfvision/YOLO | Vision | 微調及部署 YOLO 單階段物件偵測模型的 TensorFlow Vision 實作項目。 | Colab 模型資訊卡 |
專屬/YOLO | Vision | 微調及部署 YOLO 單階段物件偵測模型的 Google 專屬檢查點。 | Colab 模型資訊卡 |
YOLOv8 (Keras) | Vision | 微調並部署 YOLOv8 模型,以 Keras 實作物件偵測。 | Colab 模型資訊卡 |
tfvision/YOLOv7 | Vision | 微調及部署 YOLOv7 模型,以進行物件偵測。 | Colab 模型資訊卡 |
ByteTrack 影片物件追蹤 | Vision | 使用 ByteTrack 追蹤器執行影片物件追蹤的批次預測。 | Colab 模型資訊卡 |
ResNeSt (TIMM) | Vision | 微調及部署 ResNeSt 圖片分類模型的 PyTorch 實作。 | Colab 模型資訊卡 |
ConvNeXt (TIMM) | Vision | 微調及部署 ConvNeXt,這是以 Vision Transformer 設計為靈感的純迴旋模型,用於圖片分類。 | Colab 模型資訊卡 |
CspNet (TIMM) | Vision | 微調及部署 CSPNet (Cross Stage Partial Network) 圖片分類模型。 | Colab 模型資訊卡 |
Inception (TIMM) | Vision | 微調及部署 Inception 圖片分類模型。 | Colab 模型資訊卡 |
DeepLabv3+ (含檢查點) | Vision | 微調及部署 DeepLab-v3 Plus 模型,進行語意圖片區隔。 | Colab 模型資訊卡 |
Faster R-CNN (Detectron2) | Vision | 微調並部署 Faster R-CNN 模型的 Detectron2 實作項目,以進行圖片物件偵測。 | Colab 模型資訊卡 |
RetinaNet (Detectron2) | Vision | 微調並部署 RetinaNet 模型的 Detectron2 實作項目,以偵測圖片中的物件。 | Colab 模型資訊卡 |
Mask R-CNN (Detectron2) | Vision | 微調及部署 Mask R-CNN 模型的 Detectron2 實作項目,以進行圖片物件偵測和區隔。 | Colab 模型資訊卡 |
ControlNet | Vision | 微調及部署 ControlNet 文字轉圖像生成模型。 | Colab 模型資訊卡 |
MobileNet (TIMM) | Vision | 微調及部署 MobileNet 圖片分類模型的 PyTorch 實作。 | Colab 模型資訊卡 |
MobileNetV2 (MediaPipe) 圖片分類 | Vision | 使用 MediaPipe Model Maker 微調 MobileNetV2 圖片分類模型。 | Colab 模型資訊卡 |
MobileNetV2 (MediaPipe) 物件偵測 | Vision | 使用 MediaPipe 模型製作工具,微調 MobileNetV2 物件偵測模型。 | Colab 模型資訊卡 |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | 使用 MediaPipe 模型製作工具,微調 MobileNet-MultiHW-AVG 物件偵測模型。 | Colab 模型資訊卡 |
DeiT | Vision | 微調及部署 DeiT (資料效率高的圖像轉換器) 模型,用於圖片分類。 | Colab 模型資訊卡 |
BEiT | Vision | 微調及部署 BEiT (基於圖像 Transformer 的雙向編碼器表示技術) 模型,進行圖片分類。 | Colab 模型資訊卡 |
手勢辨識 (MediaPipe) | Vision | 使用 MediaPipe 微調及部署裝置端手勢辨識模型。 | Colab 模型資訊卡 |
平均字詞嵌入分類器 (MediaPipe) | Vision | 使用 MediaPipe 在裝置上微調及部署平均字詞嵌入分類器模型。 | Colab 模型資訊卡 |
MobileBERT 分類器 (MediaPipe) | Vision | 使用 MediaPipe 在裝置上微調及部署 MobileBERT 分類器模型。 | Colab 模型資訊卡 |
MoViNet 影片片段分類 | 影片 | 微調及部署 MoViNet 影片片段分類模型。 | Colab 模型資訊卡 |
MoViNet 影片動作辨識 | 影片 | 微調及部署 MoViNet 模型,以進行動作辨識推論。 | Colab 模型資訊卡 |
Stable Diffusion XL LCM | Vision | 部署這個模型,使用潛在一致性模型 (LCM) 強化潛在擴散模型中的文字轉圖像生成功能,以更少的步驟快速生成高品質圖像。 | Colab 模型資訊卡 |
LLaVA 1.5 | Vision、Language | 部署 LLaVA 1.5 模型。 | Colab 模型資訊卡 |
Pytorch-ZipNeRF | Vision、Video | 訓練 Pytorch-ZipNeRF 模型,這是 Pytorch 架構中 ZipNeRF 演算法的頂尖實作項目,專為從 2D 圖片有效率且準確地重建 3D 模型而設計。 | Colab 模型資訊卡 |
Mixtral | 語言 | 部署 Mixtral 模型,這是由 Mistral AI 開發的專家混合 (MoE) 大型語言模型 (LLM)。 | Model Card |
Llama 2 (量化) | 語言 | 微調及部署 Meta 的 Llama 2 模型量化版本。 | Colab 模型資訊卡 |
LaMa (Large Mask Inpainting,大型遮罩修復) | Vision | 部署 LaMa,該模型使用快速傅立葉捲積 (FFC)、高感受野感知損失和大型訓練遮罩,可進行解析度穩定的圖像修復。 | Colab 模型資訊卡 |
AutoGluon | 表格 | 您可以使用 AutoGluon 訓練及部署高準確度的機器學習和深度學習模型,以處理表格資料。 | Colab 模型資訊卡 |
MaMMUT | 語言、視覺 | 視覺編碼器和文字解碼器架構,適用於多模態工作,例如視覺問答、圖像文字擷取、文字圖像擷取,以及生成多模態嵌入。 | Colab 模型資訊卡 |
Whisper Large | 語音 | 部署 Whisper Large,這是 OpenAI 最先進的自動語音辨識 (ASR) 模型。 | Colab 模型資訊卡 |
Model Garden 中提供的合作夥伴模型清單
部分合作夥伴模型是以代管 API 形式,在 Vertex AI Model Garden 中提供 (又稱「模型即服務」)。下表列出 Model Garden 中 Google 合作夥伴提供的模型:
模型名稱 | 模態 | 說明 | 快速入門導覽課程 |
---|---|---|---|
Claude Opus 4 | 語言、視覺 | 這是 Anthropic 至今最強大的模型,也是最先進的程式設計模型。Claude Opus 4 能夠持續執行需要專注投入和數千個步驟的長期工作,大幅擴展 AI 代理程式可解決的問題。 | Model Card |
Claude Sonnet 4 | 語言、視覺 | Anthropic 的中型模型,具備卓越的智慧,適合用於大量用途,例如程式設計、深入研究和代理程式。 | Model Card |
Anthropic 的 Claude 3.7 Sonnet | 語言、視覺 | 業界領先的程式設計模型,可為 AI 代理提供支援,也是第一個可以廣泛思考的 Claude 模型。 | Model Card |
Anthropic 的 Claude 3.5 Sonnet v2 | 語言、視覺 | 全新升級的 Claude 3.5 Sonnet 是最先進的模型,能實際處理軟體工程任務,以及建構虛擬服務專員功能。新版 Claude 3.5 Sonnet 的功能取得了顯著進展,而價格和速度表現卻維持不變。 | Model Card |
Anthropic 的 Claude 3.5 Haiku | 語言、視覺 | Claude 3.5 Haiku 是 Anthropic 新一代速度最快且最具成本效益的模型,是追求速度表現和性價比的最佳選擇。 | Model Card |
Anthropic 的 Claude 3 Opus | 語言 | 功能強大的 AI 模型,能夠在執行高複雜度工作時取得最佳成效。這個模型具備令人驚豔的流暢度和類似人類的理解能力,可掌握開放式提示與不可視情境。 | Model Card |
Anthropic Claude 3 Haiku | 語言 | Anthropic 最快速的視覺與文字模型,能夠近乎即時地回覆基本查詢,讓使用者享有與真人互動相似的流暢 AI 體驗。 | Model Card |
Anthropic 的 Claude 3.5 Sonnet | 語言 | 在 Anthropic 進行的一系列評測中,Claude 3.5 Sonnet 的表現皆優於 Anthropic 的 Claude 3 Opus,而速度與成本方面的表現則等同於 Anthropic 的中階模型 Claude 3 Sonnet。 | Model Card |
DeepSeek-R1-0528 (預先發布版) | 語言 | DeepSeek 最新版的 DeepSeek R1 模型。 | Model Card |
Jamba 1.5 Large (預先發布版) | 語言 | AI21 Labs 的 Jamba 1.5 Large 旨在提供優質回覆、高輸送量,以及相較於同類大小的其他模型更具競爭力的價格。 | Model Card |
Jamba 1.5 Mini (預先發布版) | 語言 | AI21 Labs 的 Jamba 1.5 Mini 在品質、輸送量和低成本之間取得良好平衡。 | Model Card |
Llama 4 Maverick 17B-128E (GA) | 語言、視覺 | 這是最大型且功能最強大的 Llama 4 模型,具備程式設計、推理和圖像功能。Llama 4 Maverick 17B-128E 是多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 | Model Card |
Llama 4 Scout 17B-16E (GA) | 語言、視覺 | Llama 4 Scout 17B-16E 在同類模型中表現優異,在多項基準測試中,都優於先前的 Llama 世代,以及其他開放原始碼和專有模型。Llama 4 Scout 17B-16E 是一種多模態模型,採用專家混合 (MoE) 架構和早期融合技術。 | Model Card |
Llama 3.3 (GA) | 語言 | Llama 3.3 是純文字 70B 指令調整模型,用於純文字應用程式時,效能比 Llama 3.1 70B 和 Llama 3.2 90B 更強大。此外,在某些應用程式中,Llama 3.3 70B 的效能已接近 Llama 3.1 405B。 | Model Card |
Llama 3.2 (預先發布版) | 語言、視覺 | 中型 900 億參數多模態模型,可支援圖像推理,例如圖表分析和圖像說明。 | Model Card |
Llama 3.1 (GA和預先發布版) | 語言 |
這是一系列多語言 LLM,專為多語言對話用途最佳化,在常見的業界基準中,表現優於許多可用的開放原始碼和封閉式即時通訊模型。 Llama 3.1 405B 現已正式發布 (GA),價格為每 100 萬個權杖 $1 美元。請參閱定價。 Llama 3.1 8B 和 Llama 3.1 70B 均為搶先版,可免費使用。 |
Model Card |
Mistral OCR (25.05) | 語言、視覺 | Mistral OCR (25.05) 是一種光學字元辨識 API,可協助理解文件。模型會理解文件中的每個元素,例如媒體、文字、表格和方程式。 | Model Card |
Mistral Small 3.1 (25.03) | 語言 | Mistral Small 3.1 (25.03) 是 Mistral Small 模型的最新版本,具備多模態功能和更長的脈絡長度。 | Model Card |
Mistral Large (24.11) | 語言 | Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一個版本,現在具備更強大的推論和函式呼叫功能。 | Model Card |
Codestral (25.01) | 程式碼 | 專為生成程式碼設計的先進模型,包括填空和程式碼完成。 | Model Card |