Para implantar um modelo para previsões on-line, você precisa de um endpoint. Os endpoints podem ser divididos nos seguintes tipos:
Os endpoints públicos podem ser acessados pela Internet pública. Elas são mais fáceis de usar, porque não é necessária nenhuma infraestrutura de rede privada. Há dois tipos de endpoints públicos: dedicados e compartilhados. Um endpoint público dedicado é mais rápido, oferece isolamento de produção, suporte a tamanhos de payload maiores e tempos limite de solicitação mais longos do que um endpoint público compartilhado. Além disso, quando você envia uma solicitação de previsão para um endpoint público dedicado, ela é isolada do tráfego de outros usuários. Por esses motivos, endpoints públicos dedicados são recomendados como uma prática recomendada.
Endpoints privados dedicados que usam o Private Service Connect fornecem uma conexão segura para comunicação privada entre o local e o Google Cloud. Eles podem ser usados para controlar o tráfego da API do Google usando as APIs do Private Service Connect. Elas são recomendadas como uma prática recomendada.
Os endpoints particulares também fornecem uma conexão segura ao modelo e podem ser usados para comunicação particular entre o local e o Google Cloud. Eles usam o acesso a serviços particulares em uma conexão de peering de rede VPC.
Para mais informações sobre como implantar um modelo em um endpoint, consulte Implantar um modelo em um endpoint.
A tabela a seguir compara os tipos de endpoint compatíveis para veiculação de previsões on-line da Vertex AI.
Endpoint público dedicado (recomendado) | Endpoint público compartilhado | Endpoint privado dedicado usando o Private Service Connect (recomendado) | Endpoint particular | |
---|---|---|---|---|
Finalidade | Experiência de rede padrão. Permite o envio de solicitações da Internet pública (se o VPC Service Controls não estiver ativado). | Experiência de rede padrão. Permite o envio de solicitações da Internet pública (se o VPC Service Controls não estiver ativado). | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular. | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular. |
Rede de entrada | Internet pública usando o plano de rede dedicado | Internet pública usando o plano de rede compartilhada | Rede privada usando o endpoint do Private Service Connect | Rede privada usando o acesso a serviços particulares (peering de rede VPC) |
Rede de saída | Internet pública | Internet pública | Sem suporte | Rede privada usando o acesso a serviços particulares (peering de rede VPC) |
VPC Service Controls | Incompatível. Use um endpoint particular dedicado. | Com suporte | Compatível | Com suporte |
Custo | Previsão de IA do Vertex | Previsão de IA do Vertex | Previsão da Vertex AI + endpoint do Private Service Connect | Vertex AI Prediction + acesso a serviços particulares (consulte "Como usar um endpoint do Private Service Connect (regra de encaminhamento) para acessar um serviço publicado") |
Latência de rede | Otimizado | Não otimizado | Otimizado | Otimizado |
Criptografia em trânsito | TLS com certificado assinado por uma AC | TLS com certificado assinado por uma AC | TLS opcional com certificado autoassinado | Nenhum |
Tempo limite de inferência | Configurável em até 1 hora | 60 segundos | Configurável em até 1 hora | 60 segundos |
Limite de tamanho do payload | 10 MB | 1,5 MB | 10 MB | 10 MB |
Cota do QPM | Ilimitado | 30.000 | Ilimitado | Ilimitado |
Suporte a protocolo | HTTP ou gRPC | HTTP | HTTP ou gRPC | HTTP |
Suporte a streaming | Sim (SSE) | Não | Sim (SSE) | Não |
Divisão de tráfego | Sim | Sim | Sim | Não |
Geração de registros de solicitação e resposta | Sim | Sim | Sim | Não |
Geração de registros de acesso | Sim | Sim | Sim | Não |
Implantação de modelos ajustados do Gemini | Não | Sim | Não | Não |
Modelos do AutoML e explicabilidade | Não | Sim | Não | Não |
Bibliotecas de cliente compatíveis | SDK do Vertex AI para Python | Bibliotecas de cliente da Vertex AI, SDK da Vertex AI para Python | SDK do Vertex AI para Python | SDK do Vertex AI para Python |
A seguir
- Saiba mais sobre como implantar um modelo em um endpoint.