A Vertex AI oferece suporte a uma lista selecionada de modelos desenvolvidos por parceiros do Google. Os modelos de parceiros podem ser usados com a Vertex AI como modelo como serviço (MaaS, na sigla em inglês) e são oferecidos como uma API gerenciada. Ao usar um modelo de parceiro, você continua enviando solicitações para endpoints da Vertex AI. Os modelos de parceiros não têm servidor, então não é necessário provisionar nem gerenciar infraestrutura.
Os modelos de parceiros podem ser descobertos usando o Model Garden. Também é possível implantar modelos usando o Model Garden. Para mais informações, consulte Conhecer modelos de IA no Model Garden. As informações sobre cada modelo de parceiro disponível podem ser encontradas no card de modelo do Model Garden, mas apenas os modelos de terceiros que funcionam como um MaaS com a Vertex AI estão documentados neste guia.
Os modelos Claude e Mistral da Anthropic são exemplos de modelos gerenciados por terceiros disponíveis para uso na Vertex AI.
Modelos de parceiros
Os seguintes modelos de parceiros são oferecidos como APIs gerenciadas no Model Garden da Vertex AI (MaaS):
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
Claude Opus 4.1 | Linguagem, visão | Líder do setor em programação. Ela oferece performance consistente em tarefas longas que exigem esforço concentrado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Ideal para impulsionar produtos e recursos de agentes de ponta. | Card de modelo |
Claude Opus 4 | Linguagem, visão | O Claude Opus 4 oferece desempenho consistente em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. | Card de modelo |
Claude Sonnet 4 | Linguagem, visão | O modelo de tamanho médio da Anthropic com inteligência superior para usos de alto volume, como programação, pesquisa detalhada e agentes. | Card de modelo |
Claude 3.7 Sonnet da Anthropic | Linguagem, visão | Modelo líder do setor para programação e agentes de IA, além de ser o primeiro modelo Claude a oferecer raciocínio complexo. | Card de modelo |
Claude 3.5 Sonnet v2 da Anthropic | Linguagem, visão | O Claude 3.5 Sonnet atualizado é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. | Card de modelo |
Claude 3.5 Haiku da Anthropic | Linguagem, visão | O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. | Card de modelo |
Claude 3 Opus da Anthropic | Idioma | Um modelo de IA poderoso, com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. | Card de modelo |
Haiku do Claude 3 da Anthropic | Idioma | O modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas. | Card de modelo |
Claude 3.5 Sonnet da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível médio da Anthropic, o Claude 3 Sonnet. | Card de modelo |
DeepSeek-R1-0528 (pré-lançamento) | Idioma | A versão mais recente do modelo DeepSeek R1. | Card de modelo |
Jamba 1.5 Large (pré-lançamento) | Idioma | O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. | Card de modelo |
Jamba 1.5 Mini (pré-lançamento) | Idioma | O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e custo. | Card de modelo |
Llama 4 Maverick 17B-128E (GA) | Linguagem, visão | O maior e mais eficiente modelo do Llama 4, com recursos de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. | Card de modelo |
Llama 4 Scout 17B-16E (GA) | Linguagem, visão | O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de combinação de especialistas (MoE) e fusão antecipada. | Card de modelo |
Llama 3.3 (GA) | Idioma | O Llama 3.3 é um modelo de 70B ajustado por instrução apenas para texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado para aplicativos apenas de texto. Além disso, para alguns aplicativos, o Llama 3.3 70B se aproxima da performance do Llama 3.1 405B. | Card de modelo |
Llama 3.2 (prévia) | Linguagem, visão | Um modelo multimodal de 90B de tamanho médio que dá suporte ao raciocínio de imagem, como análise de gráficos e legendas de imagens. | Card de modelo |
Llama 3.1 (GA e prévia) | Idioma |
Uma coleção de LLMs multilíngues otimizados para casos de uso de diálogo multilíngue, que superam muitos dos modelos de chat fechados e de código aberto em comparativos de mercado comuns. O Llama 3.1 405B está em disponibilidade geral (GA) e tem preço por dólar por 1 milhão de tokens. Veja mais em preços. O Llama 3.1 8B e o Llama 3.1 70B estão em pré-lançamento sem custos financeiros. |
Card de modelo |
OCR do Mistral (25/05) | Linguagem, visão | O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O modelo compreende cada elemento de documentos, como mídia, texto, tabelas e equações. | Card de modelo |
Mistral Small 3.1 (25/03) | Idioma | O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com recursos multimodais e comprimento de contexto estendido. | Card de modelo |
Mistral Large (24.11) | Idioma | O Mistral Large (24.11) é a próxima versão do modelo Mistral Large (24.07), agora com recursos aprimorados de raciocínio e chamada de função. | Card de modelo |
Codestral (25.01) | Código | Um modelo de ponta projetado para geração de código, incluindo preenchimento no meio e preenchimento de código. | Card de modelo |
Preços do modelo de um parceiro da Vertex AI com garantia de capacidade
O Google oferece capacidade de processamento provisionada para modelos de parceiros que reservam capacidade de processamento para modelos por uma taxa fixa. Você decide a capacidade de processamento e em quais regiões reservar essa capacidade. Como as solicitações de capacidade de processamento provisionada são priorizadas em relação às solicitações padrão de pagamento por uso, a capacidade de processamento provisionada fornece maior disponibilidade. Quando o sistema está sobrecarregado, as solicitações podem ser concluídas desde que a capacidade de processamento permaneça abaixo da sua capacidade reservada. Para mais informações ou para se inscrever no serviço, Entre em contato com a equipe de vendas.
Endpoints regionais e globais
Para endpoints regionais, as solicitações são atendidas na região especificada. Em casos em que você tem requisitos de residência de dados ou se um modelo não oferece suporte ao endpoint global, use os endpoints regionais.
Ao usar o endpoint global, o Google pode processar e atender suas solicitações de qualquer região compatível com o modelo que você está usando, o que pode resultar em maior latência em alguns casos. O endpoint global ajuda a melhorar a disponibilidade geral e reduzir erros.
Não há diferença de preço com os endpoints regionais ao usar o endpoint global. No entanto, as cotas de endpoint global e os recursos do modelo compatível podem ser diferentes dos endpoints regionais. Para mais informações, consulte a página do modelo de terceiros relacionada.
Especifique o endpoint global
Para usar o endpoint global, defina a região como global
.
Por exemplo, o URL de solicitação de um comando curl usa o seguinte formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Para o SDK da Vertex AI, um endpoint regional é o padrão. Defina a região como GLOBAL
para usar o endpoint global.
Modelos compatíveis
O endpoint global está disponível para os seguintes modelos:
Restringir o uso de endpoints globais da API
Para ajudar a aplicar o uso de endpoints regionais, use a restrição de política da organização constraints/gcp.restrictEndpointUsage
para bloquear solicitações ao endpoint de API global. Para mais informações, consulte
Restringir o uso de endpoints.
Conceder acesso de usuário a modelos de parceiros
Para ativar os modelos de parceiro e fazer uma solicitação de comando, um administrador do Google Cloud precisa definir as permissões necessárias e verificar se a política da organização permite o uso das APIs necessárias.
Definir as permissões necessárias para usar modelos de parceiros
Os seguintes papéis e permissões são necessários para usar modelos de parceiros:
É necessário ter o papel de Gerente de direito de compra do consumidor do Identity and Access Management (IAM). Qualquer pessoa que tenha esse papel pode ativar modelos de parceiros no Model Garden.
Você precisa ter a permissão
aiplatform.endpoints.predict
. Essa permissão está incluída no papel de IAM de usuário da Vertex AI. Para mais informações, consulte Usuário da Vertex AI e Controle de acesso.
Console
Para conceder os papéis de IAM do Gerente de direito de compra do consumidor a um usuário, acesse a página IAM.
Na coluna Principal, encontre a principal do usuário cujo acesso aos modelos do Anthropic Claude você quer ativar e clique em . Edite a principal nessa linha.
No painel Editar acesso, clique em
Adicionar outro papel.Em Selecionar uma função, escolha Gerente de direito de compra do consumidor.
No painel Editar acesso, clique em
Adicionar outro papel.Em Selecionar um papel, escolha Usuário da Vertex AI.
Clique em Salvar.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Conceda o papel de Gerente de direito de compra do consumidor necessário para ativar os modelos de parceiros no Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Conceda o papel de usuário da Vertex AI que inclui a permissão
aiplatform.endpoints.predict
, necessária para fazer solicitações de comando:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Substitua
PRINCIPAL
pelo identificador do principal. O identificador tem o formatouser|group|serviceAccount:email
oudomain:domain
, por exemplo,user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
oudomain:example.domain.com
.A saída é uma lista de vinculações de política que inclui o seguinte:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Para mais informações, consulte Conceder um único papel e
gcloud projects add-iam-policy-binding
.
Definir a política da organização para o acesso ao modelo de parceiro
Para ativar os modelos de parceiros, a política da organização precisa permitir a seguinte
API: API Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com
Se a organização definir uma política para
restringir o uso do serviço,
um administrador da organização precisará verificar se
cloudcommerceconsumerprocurement.googleapis.com
é permitido ao
definir a política da organização.
Além disso, se você tiver uma política da organização que restringe o uso de modelos no Model Garden, ela precisará permitir o acesso aos modelos do parceiro. Para mais informações, consulte Controlar o acesso ao modelo.
Conformidade regulatória do modelo de parceiro
As certificações da IA generativa na Vertex AI continuam válidas quando modelos de parceiros são usados como uma API gerenciada usando a Vertex AI. Se você precisar de detalhes sobre os modelos, consulte o card de modelo correspondente ou entre em contato com o editor do modelo.
Seus dados são armazenados em repouso na região ou multirregião selecionada para modelos de parceiros na Vertex AI, mas a regionalização do processamento de dados pode variar. Para uma lista detalhada dos compromissos de tratamento de dados dos modelos de parceiros, consulte Residência de dados para modelos de parceiros.
Os comandos do cliente e as respostas do modelo não são compartilhados com terceiros ao usar a API Vertex AI, incluindo modelos de parceiros. O Google só trata os Dados do Cliente conforme instruído pelo Cliente, o que é descrito no Aditivo sobre tratamento de dados do Cloud.