Escolher um tipo de endpoint

Para implantar um modelo para inferência on-line, é necessário um endpoint. Os endpoints podem ser divididos nos seguintes tipos:

  • Os endpoints públicos podem ser acessados pela Internet pública. Elas são mais fáceis de usar porque não exigem infraestrutura de rede privada. Há dois tipos de endpoints públicos: dedicados e compartilhados. Um endpoint público dedicado é mais rápido e oferece isolamento de produção, suporte para tamanhos de payload maiores e tempos limite de solicitação mais longos do que um endpoint público compartilhado. Além disso, quando você envia uma solicitação de inferência para um endpoint público dedicado, ela fica isolada do tráfego de outros usuários. Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada.

  • Os endpoints particulares dedicados usando o Private Service Connect oferecem uma conexão segura para comunicação particular entre o ambiente local e oGoogle Cloud. Eles podem ser usados para controlar o tráfego da API do Google usando APIs do Private Service Connect. Elas são recomendadas como uma prática recomendada.

  • Os endpoints particulares também oferecem uma conexão segura ao modelo e podem ser usados para comunicação particular entre ambientes locais e oGoogle Cloud. Eles usam o acesso a serviços particulares em uma conexão de peering de rede VPC.

Para mais informações sobre como implantar um modelo em um endpoint, consulte Implantar um modelo em um endpoint.

A tabela a seguir compara os tipos de endpoints compatíveis para disponibilizar inferências on-line da Vertex AI.

Endpoint público dedicado (recomendado) Endpoint público compartilhado Endpoint particular dedicado usando o Private Service Connect (recomendado) Endpoint particular
Finalidade Experiência de rede padrão. Permite o envio de solicitações da Internet pública. Experiência de rede padrão. Permite o envio de solicitações da Internet pública. Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede ao garantir que solicitações e respostas sejam encaminhadas de forma privada. Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede ao garantir que solicitações e respostas sejam encaminhadas de forma privada.
Acesso à rede Internet pública usando um plano de rede dedicado Internet pública usando plano de rede compartilhada Rede particular usando o endpoint do Private Service Connect Rede particular usando o acesso a serviços particulares (peering de rede VPC)
VPC Service Controls Incompatível. Em vez disso, use um endpoint particular dedicado. Com suporte Compatível Com suporte
Custo Inferência da Vertex AI Inferência da Vertex AI Inferência da Vertex AI + endpoint do Private Service Connect Inferência da Vertex AI + Acesso a serviços particulares (consulte: "Como usar um endpoint do Private Service Connect (regra de encaminhamento) para acessar um serviço publicado")
Latência de rede Otimizado Não otimizado Otimizado Otimizado
Criptografia em trânsito TLS com certificado assinado pela CA TLS com certificado assinado pela CA TLS opcional com certificado autoassinado Nenhum
Tempo limite de inferência Configurável para até 1 hora 60 segundos Configurável para até 1 hora 60 segundos
Limite de tamanho do payload 10 MB 1,5 MB 10 MB 10 MB
Cota do QPM Ilimitado 30.000 Ilimitado Ilimitado
Suporte a protocolo HTTP ou gRPC HTTP HTTP ou gRPC HTTP
Suporte a streaming Sim (SSE) Não Sim (SSE) Não
Divisão de tráfego Sim Sim Sim Não
Geração de registros de solicitação e resposta Sim Sim Sim Não
Geração de registros de acesso Sim Sim Sim Não
Implantação de modelos ajustados do Gemini Não Sim Não Não
Modelos e explicabilidade do AutoML Não Sim Não Não
Bibliotecas de cliente compatíveis SDK do Vertex AI para Python Bibliotecas de cliente da Vertex AI, SDK da Vertex AI para Python SDK do Vertex AI para Python SDK do Vertex AI para Python

A seguir