Elige un tipo de endpoint

Para desplegar un modelo para la inferencia online, necesitas un endpoint. Los endpoints se pueden dividir en los siguientes tipos:

  • Se puede acceder a los endpoints públicos a través de Internet. Son más fáciles de usar, ya que no se necesita ninguna infraestructura de red privada. Hay dos tipos de endpoints públicos: dedicados y compartidos. Un endpoint público dedicado es un endpoint más rápido que ofrece aislamiento de producción, admite tamaños de carga útil más grandes y tiene tiempos de espera de solicitud más largos que un endpoint público compartido. Además, cuando envías una solicitud de inferencia a un endpoint público específico, se aísla del tráfico de otros usuarios. Por estos motivos, se recomienda usar endpoints públicos específicos.

  • Los puntos finales privados dedicados que usan Private Service Connect proporcionan una conexión segura para la comunicación privada entre las instalaciones locales yGoogle Cloud. Se pueden usar para controlar el tráfico de las APIs de Google mediante las APIs de Private Service Connect. Se recomienda como práctica recomendada.

  • Los puntos finales privados también proporcionan una conexión segura a tu modelo y se pueden usar para la comunicación privada entre las instalaciones locales yGoogle Cloud. Usan el acceso a servicios privados a través de una conexión de intercambio de tráfico entre redes de VPC.

Para obtener más información sobre cómo desplegar un modelo en un endpoint, consulta el artículo Desplegar un modelo en un endpoint.

En la siguiente tabla se comparan los tipos de endpoints admitidos para ofrecer inferencias online de Vertex AI.

Endpoint público dedicado (opción recomendada) Endpoint público compartido Endpoint privado dedicado con Private Service Connect (opción recomendada) Endpoint privado
Finalidad Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público. Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público. Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada. Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada.
Acceso a la red Internet público con un plano de red dedicado Internet público mediante un plano de red compartido Redes privadas con un endpoint de Private Service Connect Redes privadas mediante el acceso a servicios privados (emparejamiento entre redes de VPC)
Controles de Servicio de VPC No es compatible. En su lugar, usa un endpoint privado específico. Compatible Compatible Compatible
Coste Inferencia de Vertex AI Inferencia de Vertex AI Inferencia de Vertex AI + endpoint de Private Service Connect Inferencia de Vertex AI + Acceso privado a servicios (consulta "Usar un punto final de Private Service Connect [regla de reenvío] para acceder a un servicio publicado")
Latencia de la red Optimizado Sin optimizar Optimizado Optimizado
Encriptado en tránsito TLS con certificado firmado por una CA TLS con certificado firmado por una CA TLS opcional con certificado autofirmado Ninguno
Tiempo de espera de inferencia Se puede configurar hasta 1 hora 60 segundos Se puede configurar hasta 1 hora 60 segundos
Límite de tamaño de la carga útil 10 MB 1,5 MB 10 MB 10 MB
Cuota de QPM Ilimitado 30.000 Ilimitado Ilimitado
Compatibilidad con protocolos HTTP o gRPC HTTP HTTP o gRPC HTTP
Compatibilidad con streaming Sí (SSE) No Sí (SSE) No
División del tráfico No
Registro de solicitudes y respuestas No
Registro de acceso No
Despliegue de modelos de Gemini ajustados No No No
Modelos de AutoML e interpretabilidad No No No
Bibliotecas de cliente admitidas SDK de Vertex AI para Python Bibliotecas de cliente de Vertex AI y SDK de Vertex AI para Python SDK de Vertex AI para Python SDK de Vertex AI para Python

Siguientes pasos