Lista de modelos primários do Google
A tabela a seguir lista os modelos primários do Google disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Guias de início rápido |
---|---|---|---|
Gemini 2.5 Flash (pré-lançamento) | Idioma, áudio e visão | Modelo de pensamento projetado para equilibrar preço e desempenho. | Card de modelo |
Gemini 2.5 Pro (pré-lançamento) | Idioma, áudio e visão | Modelo de pensamento com recursos de última geração e capacidades aprimoradas. | Card de modelo |
Gemini 2.0 Flash | Idioma, áudio e visão | O modelo de trabalho para todas as tarefas diárias e recursos com desempenho aprimorado e suporte à API Live em tempo real. | Card de modelo |
Gemini 2.0 Flash-Lite | Idioma, áudio e visão | O modelo Flash mais rápido e econômico. Ele oferece melhor qualidade do que o 1.5 pelo mesmo preço e velocidade. | Card de modelo |
Imagen para geração de imagens | Vision | Crie imagens com nível de estúdio em escala usando comandos de texto. Você também pode usar esse modelo para aumentar a resolução de imagens. | Card de modelo |
Imagen para edição e personalização | Vision | Edite ou use o aprendizado com poucos exemplos para criar imagens com qualidade de estúdio em escala usando imagens de base e comandos de texto ou imagens de referência e comandos de texto. | Card de modelo |
Segmentação de imagens da Vertex (pré-lançamento) | Vision | Use comandos de texto ou rabiscos para segmentar uma imagem. Com a segmentação de imagens, é possível, por exemplo, detectar objetos, remover o plano de fundo de uma imagem ou segmentar o primeiro plano dela. | Card de modelo |
Imagem para legendas e VQA | Idioma | Gera uma descrição relevante para uma determinada imagem. | Card de modelo |
Embeddings para texto | Idioma | Gera vetores com base em texto, que podem ser usados para tarefas downstream, como pesquisa semântica, classificação de texto e análise de sentimento. | Card de modelo |
Embeddings para multimodal | Visão | Gera vetores com base em imagens, que podem ser usadas para tarefas downstream, como classificação e pesquisa de imagens. | Card de modelo |
Chirp 2 | Voz | O Chirp 2 é um modelo de reconhecimento de fala automático (ASR) multilíngue desenvolvido pelo Google que transcreve áudio (conversão de voz em texto). Em comparação com a primeira geração de modelos do Chirp, o Chirp 2 tem mais precisão e velocidade e novos recursos, como marcas de tempo no nível da palavra, adaptação de modelo e tradução simultânea. | Card de modelo |
Lista de modelos gerenciados disponíveis no Model Garden
Os modelos são oferecidos como APIs gerenciadas no Model Garden da Vertex AI, também chamados de modelo como serviço.
Modelos de parceiros disponíveis no Model Garden
A tabela abaixo mostra os modelos de parceiros disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
Claude Opus 4.1 | Linguagem, visão | Líder do setor em programação. Ele oferece performance consistente em tarefas longas que exigem esforço concentrado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Ideal para impulsionar produtos e recursos de agentes de ponta. | Card de modelo |
Claude Opus 4 | Linguagem, visão | O Claude Opus 4 oferece desempenho sustentado em tarefas longas que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. | Card de modelo |
Claude Sonnet 4 | Linguagem, visão | O modelo de tamanho médio da Anthropic com inteligência superior para usos de alto volume, como programação, pesquisa detalhada e agentes. | Card de modelo |
Claude 3.7 Sonnet da Anthropic | Linguagem, visão | Modelo líder do setor para programação e agentes de IA, além de ser o primeiro modelo Claude a oferecer raciocínio complexo. | Card de modelo |
Claude 3.5 Sonnet v2 da Anthropic | Linguagem, visão | O Claude 3.5 Sonnet atualizado é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. | Card de modelo |
Claude 3.5 Haiku da Anthropic | Linguagem, visão | O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. | Card de modelo |
Claude 3 Opus da Anthropic | Idioma | Um modelo de IA poderoso, com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. | Card de modelo |
Haiku do Claude 3 da Anthropic | Idioma | O modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas. | Card de modelo |
Claude 3.5 Sonnet da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível médio da Anthropic, o Claude 3 Sonnet. | Card de modelo |
Jamba 1.5 Large (pré-lançamento) | Idioma | O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. | Card de modelo |
Jamba 1.5 Mini (pré-lançamento) | Idioma | O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e baixo custo. | Card de modelo |
OCR do Mistral (25/05) | Linguagem, visão | O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O modelo compreende cada elemento de documentos, como mídia, texto, tabelas e equações. | Card de modelo |
Mistral Small 3.1 (25/03) | Idioma | O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com recursos multimodais e comprimento de contexto estendido. | Card de modelo |
Mistral Large (24.11) | Idioma | O Mistral Large (24.11) é a próxima versão do modelo Mistral Large (24.07), agora com recursos aprimorados de raciocínio e chamada de função. | Card de modelo |
Codestral (25.01) | Código | Um modelo de ponta projetado para geração de código, incluindo preenchimento no meio e preenchimento de código. | Card de modelo |
Modelos abertos disponíveis no Model Garden
A tabela a seguir lista os modelos abertos disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
gpt-oss 120B | Idioma | Um modelo de 120 bilhões de parâmetros que oferece alto desempenho em tarefas de raciocínio. | Card de modelo |
gpt-oss 20B | Idioma | Um modelo de 20 bilhões de parâmetros otimizado para eficiência e implantação em hardware de consumo e de borda. | Card de modelo |
Qwen3 Coder | Idioma, código | Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software. | Card de modelo |
Qwen3 235B | Idioma | Um modelo de peso aberto com capacidade de "pensamento híbrido" para alternar entre raciocínio metódico e conversa rápida. | Card de modelo |
DeepSeek-V3.1 | Idioma | Modelo híbrido da DeepSeek que oferece suporte ao modo de pensamento e ao modo sem pensamento. | Card de modelo |
DeepSeek R1 (0528) | Idioma | A versão mais recente do modelo DeepSeek R1. | Card de modelo |
Llama 4 Maverick 17B-128E | Linguagem, visão | O maior e mais eficiente modelo do Llama 4, com recursos de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. | Card de modelo |
Llama 4 Scout 17B-16E | Linguagem, visão | O Llama 4 Scout 17B-16E oferece resultados de ponta para a classe de tamanho dele, superando gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. | Card de modelo |
Llama 3.3 | Idioma | O Llama 3.3 é um modelo de 70B ajustado por instrução somente de texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado em aplicativos somente de texto. Além disso, para alguns aplicativos, o Llama 3.3 70B se aproxima da performance do Llama 3.1 405B. | Card de modelo |
Llama 3.2 (prévia) | Linguagem, visão | Um modelo multimodal de 90B de tamanho médio que dá suporte ao raciocínio de imagem, como análise de gráficos e legendas de imagens. | Card de modelo |
Llama 3.1 | Idioma |
Uma coleção de LLMs multilíngues otimizados para casos de uso de diálogo multilíngue, que superam muitos dos modelos de chat fechados e de código aberto em comparativos de mercado comuns. O Llama 3.1 405B está em disponibilidade geral (GA). O Llama 3.1 8B e o Llama 3.1 70B estão em pré-lançamento. |
Card de modelo |
Lista de modelos com receitas de ajuste ou disponibilização de código aberto no Model Garden
A tabela a seguir lista os modelos de OSS compatíveis com ajuste de código aberto ou receitas de veiculação no Model Garden:
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
Llama 4 | Linguagem, visão | Uma família de modelos multimodais que usam a arquitetura Mixture-of-Experts (MoE) e fusão antecipada. | Colab Card de modelo |
Llama 3.3 | Idioma | O modelo de linguagem grande (LLM) multilíngue Meta Llama 3.3 é um modelo generativo pré-treinado e ajustado por instrução em 70B (entrada/saída de texto). | Card de modelo |
Flux | Vision | Um modelo transformador de fluxo retificado de 12 bilhões de parâmetros que gera imagens de alta qualidade com base em descrições de texto. | Card de modelo |
PromptGuard | Idioma | Proteja as entradas de LLM contra técnicas de jailbreaking e injeções indiretas. | Card de modelo |
Llama 3.2 | Idioma | Uma coleção de modelos de linguagem grandes que são multilíngues, generativos, pré-treinados e ajustados por instrução nos tamanhos 1B e 3B. | Card de modelo |
Llama 3.2-Vision | Linguagem, visão | Uma coleção de modelos de linguagem grandes multimodais de raciocínio de imagem, pré-treinados e ajustados por instrução, nos tamanhos 11B e 90B. Esses modelos são otimizados para reconhecimento visual, raciocínio e legendagem de imagens, além de respostas a perguntas gerais sobre uma imagem. | Card de modelo |
Llama Guard 3 | Idioma | Um modelo pré-treinado Llama-3.1-8B que foi ajustado para classificação de segurança de conteúdo. | Card de modelo |
Qwen2 | Idioma | Implante o Qwen2, uma série de modelos de linguagem grandes de fundação. | Colab Card de modelo |
Phi-3 | Idioma | Implante o Phi-3, uma série de modelos de linguagem grande de fundação. | Colab Card de modelo |
E5 | Idioma | Implantar o E5, uma série de modelos de embedding de texto. | Colab Card de modelo |
ID instantâneo | Linguagem, visão | Implante o Instant ID, um modelo de geração de texto para imagem que preserva a identidade. | Colab Card de modelo |
Llama 3 | Idioma | Faça análises e criações com os modelos Llama 3 da Meta (8B, 70B, 405B) na Vertex AI. | Card de modelo |
Gemma 3n | Idioma, visão, áudio | Modelos de peso abertos (E2B, E4B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
O Gemma 3 | Linguagem, visão | Modelos de peso abertos (1B somente texto, 4B, 12B, 27B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
Gemma 2 | Idioma | Modelos de peso abertos (9B, 27B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
Gemma | Idioma | Modelos de peso abertos (2B, 7B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
CodeGemma | Idioma | Modelos de peso aberto (2B, 7B) para geração e preenchimento de código, desenvolvidos com as mesmas pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
PaliGemma 2 | Linguagem, visão | Modelos 3B, 10B e 28B de peso aberto para tarefas de legendagem de imagens, perguntas visuais e respostas, criados com as mesmas pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
PaliGemma | Linguagem, visão | Modelo 3B de peso aberto para tarefas de legendagem de imagens, perguntas visuais e respostas, criado com as mesmas pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
ShieldGemma 2 | Linguagem, visão | Modelo de peso aberto 4B treinado no ponto de verificação de TI 4B da Gemma 3 para classificação de segurança de imagens em categorias principais que recebem imagens e geram rótulos de segurança por política. | Card de modelo |
TxGemma | Idioma | Modelos de peso abertos (2B, 9B, 27B) projetados para desenvolvimento terapêutico e criados com base no Gemma 2. | Card de modelo |
MedGemma | Linguagem, visão | Modelos de peso abertos (4B, 27B) projetados para performance na compreensão de texto e imagens médicas. | Card de modelo |
MedSigLIP | Linguagem, visão | Modelo de peso aberto (codificador de visão de 400 milhões de parâmetros e codificador de texto de 400 milhões de parâmetros) projetado para codificar imagens e textos médicos em um espaço de embedding comum. | Card de modelo |
T5Gemma | Idioma | Modelos codificador-decodificador de peso aberto (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) criados com a mesma pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
Vicuna v1.5 | Idioma | Implante os modelos da série Vicuna v1.5, que são modelos de fundação ajustados com LLama2 para geração de texto. | Card de modelo |
NLLB | Idioma | Implante modelos da série nllb para tradução em vários idiomas. | Card de modelo Colab |
Mistral-7B | Idioma | Implante o Mistral-7B, um modelo de fundação para geração de texto. | Card de modelo |
BioGPT | Idioma | Implante o BioGPT, um modelo generativo de texto para o domínio biomédico. | Card de modelo Colab |
BiomedCLIP | Linguagem, visão | Implante o BiomedCLIP, um modelo de fundação multimodal para o domínio biomédico. | Card de modelo Colab |
ImageBind | Idioma, visão, áudio |
Implante o ImageBind, um modelo de fundação para incorporação multimodal. | Card de modelo Colab |
DITO | Linguagem, visão | Ajuste e implante o DITO, um modelo de fundação multimodal para tarefas de detecção de objetos de vocabulário aberto. | Card de modelo Colab |
OWL-ViT v2 | Linguagem, visão | Implante o OWL-ViT v2, um modelo de fundação multimodal para tarefas de detecção de objetos de vocabulário aberto. | Card de modelo Colab |
FaceStylizer (Mediapipe) | Vision | Um pipeline generativo para transformar imagens de rostos humanos em um novo estilo. | Card de modelo Colab |
Llama 2 | Idioma | Ajuste e implante os modelos de fundação Llama 2 da Meta (7B, 13B, 70B) na Vertex AI. | Card de modelo |
Code Llama | Idioma | Implante os modelos de fundação Code Llama da Meta (7B, 13B, 34B) na Vertex AI. | Card de modelo |
Falcon-instruct | Idioma | Ajuste e implante modelos Falcon-instruct (7B, 40B) usando PEFT. | Colab Card de modelo |
OpenLLaMA | Idioma | Ajuste e implante modelos OpenLLaMA (3B, 7B, 13B) usando PEFT. | Colab Card de modelo |
T5-FLAN | Idioma | Ajuste e implante o T5-FLAN (base, pequeno, grande). | Card de modelo (pipeline de ajuste fino incluso) |
BERT | Idioma | Ajuste e implante o BERT usando PEFT. | Colab Card de modelo |
BART-large-cnn | Idioma | Implante o BART, um modelo codificador-codificador de transformação (seq2seq) com um codificador bidirecional (do tipo BERT) e um decodificador autorregressivo (do tipo GPT). | Colab Card de modelo |
RoBERTa-large | Idioma | Ajuste e implante o RoBERTa-large usando PEFT. | Colab Card de modelo |
XLM-RoBERTa-large | Idioma | Ajuste e implante o XLM-RoBERTa-large (uma versão multilíngue do RoBERTa) usando PEFT. | Colab Card de modelo |
Stable Diffusion XL v1.0 | Linguagem, visão | Implante o Stable Diffusion XL v1.0, que é compatível com geração de texto para imagem. | Colab Card de modelo |
Stable Diffusion XL Lightning | Linguagem, visão | Implante o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem. | Colab Card de modelo |
Stable Diffusion v2.1 | Linguagem, visão | Ajuste e implante o Stable Diffusion v2.1 (compatível com a geração de texto para imagem) usando o DreamBooth. | Colab Card de modelo |
Stable Diffusion 4x Upscaler | Linguagem, visão | Implante o Stable Diffusion 4x Upscaler, que é compatível com a super-resolução de imagens condicionadas por texto. | Colab Card de modelo |
InstructPix2Pix | Linguagem, visão | Implante o InstructPix2Pix, que é compatível com a edição de imagens usando um comando de texto. | Colab Card de modelo |
Stable Diffusion Inpainting | Linguagem, visão | Ajuste e implante o Stable Diffusion Inpainting, que é compatível com retoque de uma imagem mascarada usando um comando de texto. | Colab Card de modelo |
SAM | Linguagem, visão | Implante o Segment Anything, que é compatível com a segmentação de imagens zero-shot. | Colab Card de modelo |
Recuperação de imagens compostas do Pic2Word | Linguagem, visão | Implante o Pic2Word, que é compatível com a recuperação multimodal de imagens compostas. | Colab Card de modelo |
BLIP2 | Linguagem, visão | Implante o BLIP2, que é dá suporte à legendagem de imagens e resposta a perguntas visuais. | Colab Card de modelo |
Open-CLIP | Linguagem, visão | Ajuste e implante o Open-CLIP, que é compatível com a classificação zero-shot. | Colab Card de modelo |
F-VLM | Linguagem, visão | Implante o F-VLM, que dá suporte à detecção de objetos de imagem de vocabulário aberto. | Colab Card de modelo |
tfhub/EfficientNetV2 | Vision | Ajuste e implante a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetV2 (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetV2/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetLite (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens EfficientNetLite com o criador de modelos MediaPipe. | Colab Card de modelo |
tfvision/vit | Vision | Ajuste e implante o modelo de classificação de imagens ViT do TensorFlow Vision. | Colab Card de modelo |
ViT (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens ViT. | Colab Card de modelo |
ViT/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens ViT. | Colab Card de modelo |
MaxViT/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens MaxViT híbrido (CNN + ViT). | Colab Card de modelo |
ViT (JAX) | Vision | Ajuste e implante a implementação do JAX do modelo de classificação de imagens ViT. | Colab Card de modelo |
tfvision/SpineNet | Vision | Ajuste e implante a implementação do TensorFlow Vision do modelo de detecção de objetos SpineNet. | Colab Card de modelo |
SpineNet/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de detecção de objetos SpineNet. | Colab Card de modelo |
tfvision/YOLO | Vision | Ajuste e implante o modelo de detecção de objetos em fase única YOLO do TensorFlow Vision. | Colab Card de modelo |
YOLO/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do YOLO, um modelo de detecção de objetos em única fase. | Colab Card de modelo |
YOLOv8 (Keras) | Vision | Ajuste e implante a implementação do Keras do modelo YOLOv8 para detecção de objetos. | Colab Card de modelo |
tfvision/YOLOv7 | Vision | Ajuste e implante o modelo YOLOv7 para detecção de objetos. | Colab Card de modelo |
Rastreamento de objetos de vídeo do ByteTrack | Vision | Execute a previsão em lote para rastreamento de objetos de vídeo usando o rastreador ByteTrack. | Colab Card de modelo |
ResNeSt (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens ResNeSt. | Colab Card de modelo |
ConvNeXt (TIMM) | Vision | Ajuste e implante o ConvNeXt, um modelo puro de convolução para classificação de imagens inspirado no design do Vision Transformers. | Colab Card de modelo |
CspNet (TIMM) | Vision | Ajuste e implante o modelo de classificação de imagens CSPNet (Cross Stage Partial Network). | Colab Card de modelo |
Inception (TIMM) | Vision | Ajuste e implante o modelo de classificação de imagens Inception. | Colab Card de modelo |
DeepLabv3+ (com checkpoint) | Vision | Ajuste e implante o modelo DeepLab-v3 Plus para segmentação de imagens semânticas. | Colab Card de modelo |
Faster R-CNN (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo Faster R-CNN para detecção de objetos de imagem. | Colab Card de modelo |
RetinaNet (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo RetinaNet para detecção de objetos de imagem. | Colab Card de modelo |
Mask R-CNN (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo Mask R-CNN para detecção e segmentação de objetos de imagem. | Colab Card de modelo |
ControlNet | Vision | Ajuste e implante o modelo de geração de texto para imagem do ControlNet. | Colab Card de modelo |
MobileNet (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens MobileNet. | Colab Card de modelo |
Classificação de imagens MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens MobileNetV2 usando o criador de modelos MediaPipe. | Colab Card de modelo |
Detecção de objetos MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de detecção de objetos MobileNetV2 usando o criador de modelos MediaPipe. | Colab Card de modelo |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajuste o modelo de detecção de objetos MobileNet-MultiHW-AVG usando o criador de modelos MediaPipe. | Colab Card de modelo |
DeiT | Vision | Ajuste e implante o modelo DeiT (transformadores de imagens com eficiência de dados) para classificação de imagens. | Colab Card de modelo |
BEiT | Vision | Ajuste e implante o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para classificação de imagens. | Colab Card de modelo |
Reconhecimento de gestos da mão (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos de reconhecimento de gestos com a mão usando o MediaPipe. | Colab Card de modelo |
Classificador médio de embedding de palavras (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos de classificador médio de embedding de palavras usando o MediaPipe. | Colab Card de modelo |
Classificador MobileBERT (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos do Classificador MobileBERT usando o MediaPipe. | Colab Card de modelo |
Classificação de videoclipes da MoViNet | Vídeo | Ajuste e implante modelos de classificação de videoclipes da MoViNet. | Colab Card de modelo |
Reconhecimento de ações em vídeo da MoViNet | Vídeo | Ajuste e implante modelos da MoViNet para inferência de reconhecimento de ações. | Colab Card de modelo |
LCM Stable Diffusion XL | Vision | Implante este modelo que usa o Modelo de Consistência Latente (LCM, na sigla em inglês) para melhorar a geração de imagens com base em texto em modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade em menos etapas. | Colab Card de modelo |
LLaVA 1.5 | Visão, linguagem | Implantar modelos LLaVA 1.5. | Colab Card de modelo |
PyTorch-ZipNeRF | Visão, Vídeo | Treine o modelo Pytorch-ZipNeRF, uma implementação de última geração do algoritmo ZipNeRF no framework Pytorch, projetado para uma reconstrução 3D eficiente e precisa usando imagens 2D. | Colab Card de modelo |
Mixtral | Idioma | Implante o modelo Mixtral, uma combinação de modelos de linguagem grandes (LLM) desenvolvidos pela Mistral AI. | Card de modelo |
Lhama 2 (quantizada) | Idioma | Ajuste e implante uma versão quantizada dos modelos Llama 2 da Meta. | Colab Card de modelo |
LaMa (Large Mask Inpainting) | Vision | Implante o LaMa, que usa Convoluções Rápidas de Fourier (FFC, na sigla em inglês), uma alta perda perceptível de campo receptivo e grandes máscaras de treinamento para retoques de imagens com resolução robusta. | Colab Card de modelo |
AutoGluon | Tabular | Com o AutoGluon, é possível treinar e implantar modelos de machine learning de alta precisão e aprendizado profundo para dados tabulares. | Colab Card de modelo |
MaMMUT | Linguagem, visão | Uma arquitetura de codificador de visão e de decodificador de texto para multimodais como respostas visuais a perguntas, recuperação de imagens-texto, recuperação de imagens de texto e geração de embeddings multimodais. | Colab Card de modelo |
Whisper Large | Voz | Implante o Whisper Large, o modelo de ponta da OpenAI para reconhecimento automático de fala (ASR). | Colab Card de modelo |