Modelos de parceiros da Vertex AI para MaaS

A Vertex AI oferece suporte a uma lista selecionada de modelos desenvolvidos por parceiros do Google. Os modelos de parceiros podem ser usados com a Vertex AI como modelo como serviço (MaaS, na sigla em inglês) e são oferecidos como uma API gerenciada. Ao usar um modelo de parceiro, você continua enviando solicitações para endpoints da Vertex AI. Os modelos de parceiros não têm servidor, então não é necessário provisionar nem gerenciar infraestrutura.

Os modelos de parceiros podem ser descobertos usando o Model Garden. Também é possível implantar modelos usando o Model Garden. Para mais informações, consulte Conhecer modelos de IA no Model Garden. As informações sobre cada modelo de parceiro disponível podem ser encontradas no card de modelo do Model Garden, mas apenas os modelos de terceiros que funcionam como um MaaS com a Vertex AI estão documentados neste guia.

Os modelos Claude e Mistral da Anthropic são exemplos de modelos gerenciados por terceiros disponíveis para uso na Vertex AI.

Modelos de parceiros

Os seguintes modelos de parceiros são oferecidos como APIs gerenciadas no Model Garden da Vertex AI (MaaS):

Nome do modelo Modalidade Descrição Guia de início rápido
Claude Opus 4.1 Linguagem, visão Líder do setor em programação. Ela oferece performance consistente em tarefas longas que exigem esforço concentrado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Ideal para impulsionar produtos e recursos de agentes de ponta. Card de modelo
Claude Opus 4 Linguagem, visão O Claude Opus 4 oferece desempenho consistente em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Card de modelo
Claude Sonnet 4 Linguagem, visão O modelo de tamanho médio da Anthropic com inteligência superior para usos de alto volume, como programação, pesquisa detalhada e agentes. Card de modelo
Claude 3.7 Sonnet da Anthropic Linguagem, visão Modelo líder do setor para programação e agentes de IA, além de ser o primeiro modelo Claude a oferecer raciocínio complexo. Card de modelo
Claude 3.5 Sonnet v2 da Anthropic Linguagem, visão O Claude 3.5 Sonnet atualizado é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. Card de modelo
Claude 3.5 Haiku da Anthropic Linguagem, visão O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. Card de modelo
Claude 3 Opus da Anthropic Idioma Um modelo de IA poderoso, com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. Card de modelo
Haiku do Claude 3 da Anthropic Idioma O modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas. Card de modelo
Claude 3.5 Sonnet da Anthropic Idioma O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível médio da Anthropic, o Claude 3 Sonnet. Card de modelo
DeepSeek-R1-0528 (pré-lançamento) Idioma A versão mais recente do modelo DeepSeek R1. Card de modelo
Jamba 1.5 Large (pré-lançamento) Idioma O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. Card de modelo
Jamba 1.5 Mini (pré-lançamento) Idioma O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e custo. Card de modelo
Llama 4 Maverick 17B-128E (GA) Linguagem, visão O maior e mais eficiente modelo do Llama 4, com recursos de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. Card de modelo
Llama 4 Scout 17B-16E (GA) Linguagem, visão O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. Card de modelo
Llama 3.3 (GA) Idioma O Llama 3.3 é um modelo de 70B ajustado por instrução apenas para texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos apenas de texto. Além disso, para alguns aplicativos, o Llama 3.3 70B se aproxima da performance do Llama 3.1 405B. Card de modelo
Llama 3.2 (prévia) Linguagem, visão Um modelo multimodal de 90B de tamanho médio que dá suporte ao raciocínio de imagem, como análise de gráficos e legendas de imagens. Card de modelo
Llama 3.1 (GA e prévia) Idioma

Uma coleção de LLMs multilíngues otimizados para casos de uso de diálogo multilíngue, que superam muitos dos modelos de chat fechados e de código aberto em comparativos de mercado comuns.

O Llama 3.1 405B está em disponibilidade geral (GA) e tem preço por dólar por 1 milhão de tokens. Veja mais em preços.

O Llama 3.1 8B e o Llama 3.1 70B estão em pré-lançamento sem custos financeiros.

Card de modelo
OCR do Mistral (25/05) Linguagem, visão O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O modelo compreende cada elemento de documentos, como mídia, texto, tabelas e equações. Card de modelo
Mistral Small 3.1 (25/03) Idioma O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com recursos multimodais e comprimento de contexto estendido. Card de modelo
Mistral Large (24.11) Idioma O Mistral Large (24.11) é a próxima versão do modelo Mistral Large (24.07), agora com recursos aprimorados de raciocínio e chamada de função. Card de modelo
Codestral (25.01) Código Um modelo de ponta projetado para geração de código, incluindo preenchimento no meio e preenchimento de código. Card de modelo

Preços do modelo de um parceiro da Vertex AI com garantia de capacidade

O Google oferece capacidade de processamento provisionada para modelos de parceiros que reservam capacidade de processamento para modelos por uma taxa fixa. Você decide a capacidade de processamento e em quais regiões reservar essa capacidade. Como as solicitações de capacidade de processamento provisionada são priorizadas em relação às solicitações padrão de pagamento por uso, a capacidade de processamento provisionada fornece maior disponibilidade. Quando o sistema está sobrecarregado, as solicitações podem ser concluídas desde que a capacidade de processamento permaneça abaixo da sua capacidade reservada. Para mais informações ou para se inscrever no serviço, Entre em contato com a equipe de vendas.

Endpoints regionais e globais

Para endpoints regionais, as solicitações são atendidas na região especificada. Em casos em que você tem requisitos de residência de dados ou se um modelo não oferece suporte ao endpoint global, use os endpoints regionais.

Ao usar o endpoint global, o Google pode processar e atender suas solicitações de qualquer região compatível com o modelo que você está usando, o que pode resultar em maior latência em alguns casos. O endpoint global ajuda a melhorar a disponibilidade geral e reduzir erros.

Não há diferença de preço com os endpoints regionais ao usar o endpoint global. No entanto, as cotas de endpoint global e os recursos do modelo compatível podem ser diferentes dos endpoints regionais. Para mais informações, consulte a página do modelo de terceiros relacionada.

Especifique o endpoint global

Para usar o endpoint global, defina a região como global.

Por exemplo, o URL de solicitação de um comando curl usa o seguinte formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Para o SDK da Vertex AI, um endpoint regional é o padrão. Defina a região como GLOBAL para usar o endpoint global.

Modelos compatíveis

O endpoint global está disponível para os seguintes modelos:

Restringir o uso de endpoints globais da API

Para ajudar a aplicar o uso de endpoints regionais, use a restrição de política da organização constraints/gcp.restrictEndpointUsage para bloquear solicitações ao endpoint de API global. Para mais informações, consulte Restringir o uso de endpoints.

Conceder acesso de usuário a modelos de parceiros

Para ativar os modelos de parceiro e fazer uma solicitação de comando, um administrador do Google Cloud precisa definir as permissões necessárias e verificar se a política da organização permite o uso das APIs necessárias.

Definir as permissões necessárias para usar modelos de parceiros

Os seguintes papéis e permissões são necessários para usar modelos de parceiros:

  • É necessário ter o papel de Gerente de direito de compra do consumidor do Identity and Access Management (IAM). Qualquer pessoa que tenha esse papel pode ativar modelos de parceiros no Model Garden.

  • Você precisa ter a permissão aiplatform.endpoints.predict. Essa permissão está incluída no papel de IAM de usuário da Vertex AI. Para mais informações, consulte Usuário da Vertex AI e Controle de acesso.

Console

  1. Para conceder os papéis de IAM do Gerente de direito de compra do consumidor a um usuário, acesse a página IAM.

    Acesse o IAM

  2. Na coluna Principal, encontre a principal do usuário cujo acesso aos modelos do Anthropic Claude você quer ativar e clique em . Edite a principal nessa linha.

  3. No painel Editar acesso, clique em Adicionar outro papel.

  4. Em Selecionar uma função, escolha Gerente de direito de compra do consumidor.

  5. No painel Editar acesso, clique em Adicionar outro papel.

  6. Em Selecionar um papel, escolha Usuário da Vertex AI.

  7. Clique em Salvar.

gcloud

  1. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

  2. Conceda o papel de Gerente de direito de compra do consumidor necessário para ativar os modelos de parceiros no Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Conceda o papel de usuário da Vertex AI que inclui a permissão aiplatform.endpoints.predict, necessária para fazer solicitações de comando:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Substitua PRINCIPAL pelo identificador do principal. O identificador tem o formato user|group|serviceAccount:email ou domain:domain, por exemplo, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com ou domain:example.domain.com.

    A saída é uma lista de vinculações de política que inclui o seguinte:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Para mais informações, consulte Conceder um único papel e gcloud projects add-iam-policy-binding.

Definir a política da organização para o acesso ao modelo de parceiro

Para ativar os modelos de parceiros, a política da organização precisa permitir a seguinte API: API Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com

Se a organização definir uma política para restringir o uso do serviço, um administrador da organização precisará verificar se cloudcommerceconsumerprocurement.googleapis.com é permitido ao definir a política da organização.

Além disso, se você tiver uma política da organização que restringe o uso de modelos no Model Garden, ela precisará permitir o acesso aos modelos do parceiro. Para mais informações, consulte Controlar o acesso ao modelo.

Conformidade regulatória do modelo de parceiro

As certificações da IA generativa na Vertex AI continuam válidas quando modelos de parceiros são usados como uma API gerenciada usando a Vertex AI. Se você precisar de detalhes sobre os modelos, consulte o card de modelo correspondente ou entre em contato com o editor do modelo.

Seus dados são armazenados em repouso na região ou multirregião selecionada para modelos de parceiros na Vertex AI, mas a regionalização do processamento de dados pode variar. Para uma lista detalhada dos compromissos de tratamento de dados dos modelos de parceiros, consulte Residência de dados para modelos de parceiros.

Os comandos do cliente e as respostas do modelo não são compartilhados com terceiros ao usar a API Vertex AI, incluindo modelos de parceiros. O Google só trata os Dados do Cliente conforme instruído pelo Cliente, o que é descrito no Aditivo sobre tratamento de dados do Cloud.