Para desplegar un modelo para la inferencia online, necesitas un endpoint. Los endpoints se pueden dividir en los siguientes tipos:
Se puede acceder a los endpoints públicos a través de Internet. Son más fáciles de usar, ya que no se necesita ninguna infraestructura de red privada. Hay dos tipos de endpoints públicos: dedicados y compartidos. Un endpoint público dedicado es un endpoint más rápido que ofrece aislamiento de producción, admite tamaños de carga útil más grandes y tiene tiempos de espera de solicitud más largos que un endpoint público compartido. Además, cuando envías una solicitud de inferencia a un endpoint público específico, se aísla del tráfico de otros usuarios. Por estos motivos, se recomienda usar endpoints públicos específicos.
Los puntos finales privados dedicados que usan Private Service Connect proporcionan una conexión segura para la comunicación privada entre las instalaciones locales yGoogle Cloud. Se pueden usar para controlar el tráfico de las APIs de Google mediante las APIs de Private Service Connect. Se recomienda como práctica recomendada.
Los puntos finales privados también proporcionan una conexión segura a tu modelo y se pueden usar para la comunicación privada entre las instalaciones locales yGoogle Cloud. Usan el acceso a servicios privados a través de una conexión de intercambio de tráfico entre redes de VPC.
Para obtener más información sobre cómo desplegar un modelo en un endpoint, consulta el artículo Desplegar un modelo en un endpoint.
En la siguiente tabla se comparan los tipos de endpoints admitidos para ofrecer inferencias online de Vertex AI.
Endpoint público dedicado (opción recomendada) | Endpoint público compartido | Endpoint privado dedicado con Private Service Connect (opción recomendada) | Endpoint privado | |
---|---|---|---|---|
Finalidad | Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público. | Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público. | Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada. | Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada. |
Acceso a la red | Internet público con un plano de red dedicado | Internet público mediante un plano de red compartido | Redes privadas con un endpoint de Private Service Connect | Redes privadas mediante el acceso a servicios privados (emparejamiento entre redes de VPC) |
Controles de Servicio de VPC | No es compatible. En su lugar, usa un endpoint privado específico. | Compatible | Compatible | Compatible |
Coste | Inferencia de Vertex AI | Inferencia de Vertex AI | Inferencia de Vertex AI + endpoint de Private Service Connect | Inferencia de Vertex AI + Acceso privado a servicios (consulta "Usar un punto final de Private Service Connect [regla de reenvío] para acceder a un servicio publicado") |
Latencia de la red | Optimizado | Sin optimizar | Optimizado | Optimizado |
Encriptado en tránsito | TLS con certificado firmado por una CA | TLS con certificado firmado por una CA | TLS opcional con certificado autofirmado | Ninguno |
Tiempo de espera de inferencia | Se puede configurar hasta 1 hora | 60 segundos | Se puede configurar hasta 1 hora | 60 segundos |
Límite de tamaño de la carga útil | 10 MB | 1,5 MB | 10 MB | 10 MB |
Cuota de QPM | Ilimitado | 30.000 | Ilimitado | Ilimitado |
Compatibilidad con protocolos | HTTP o gRPC | HTTP | HTTP o gRPC | HTTP |
Compatibilidad con streaming | Sí (SSE) | No | Sí (SSE) | No |
División del tráfico | Sí | Sí | Sí | No |
Registro de solicitudes y respuestas | Sí | Sí | Sí | No |
Registro de acceso | Sí | Sí | Sí | No |
Despliegue de modelos de Gemini ajustados | No | Sí | No | No |
Modelos de AutoML e interpretabilidad | No | Sí | No | No |
Bibliotecas de cliente admitidas | SDK de Vertex AI para Python | Bibliotecas de cliente de Vertex AI y SDK de Vertex AI para Python | SDK de Vertex AI para Python | SDK de Vertex AI para Python |