Para implementar un modelo para la predicción en línea, necesitas un extremo. Los extremos se pueden dividir en los siguientes tipos:
Se puede acceder a los extremos públicos a través de Internet pública. Son más fáciles de usar, ya que no se requiere infraestructura de red privada. Existen dos tipos de extremos públicos: dedicados y compartidos. Un extremo público dedicado es un extremo más rápido que proporciona aislamiento de producción, compatibilidad con tamaños de carga útil más grandes y tiempos de espera de solicitudes más largos que un extremo público compartido. Además, cuando envías una solicitud de predicción a un extremo público dedicado, esta se aísla del tráfico de otros usuarios. Por estos motivos, se recomiendan los extremos públicos dedicados como práctica recomendada.
Los extremos de Private Service Connect proporcionan una conexión segura para la comunicación privada entre las instalaciones locales y Google Cloud. Se pueden usar para controlar el tráfico de las APIs de Google mediante las APIs de Private Service Connect. Se recomiendan como prácticas recomendadas.
Los extremos privados también proporcionan una conexión segura a tu modelo y se pueden usar para la comunicación privada entre las instalaciones yGoogle Cloud. Usan el acceso privado a servicios a través de una conexión de intercambio de tráfico entre redes de VPC.
Para obtener más información sobre cómo implementar un modelo en un extremo, consulta Implementa un modelo en un extremo.
En la siguiente tabla, se comparan los tipos de extremos compatibles para la entrega de predicciones en línea de Vertex AI.
Extremo público dedicado (recomendado) | Extremo público compartido | Extremo de Private Service Connect (recomendado) | Extremo privado | |
---|---|---|---|---|
Purpose | Experiencia de red predeterminada. Permite enviar solicitudes desde Internet público (si no están habilitados los Controles del servicio de VPC). | Experiencia de red predeterminada. Permite enviar solicitudes desde Internet público (si no están habilitados los Controles del servicio de VPC). | Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y respuestas se enruten de forma privada. | Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y respuestas se enruten de forma privada. |
Redes de entrada | Internet pública con un plano de red dedicado | Internet pública con un plano de red compartido | Redes privadas con el extremo de Private Service Connect | Redes privadas con acceso privado a servicios (intercambio de tráfico entre redes de VPC) |
Redes de salida | Internet pública | Internet pública | No compatible | Redes privadas con acceso privado a servicios (intercambio de tráfico entre redes de VPC) |
Controles del servicio de VPC | No compatible. En su lugar, usa un extremo de Private Service Connect. | Compatible | Compatible | Compatible |
Costo | Vertex AI Prediction | Vertex AI Prediction | Vertex AI Prediction + extremo de Service Connect privado | Predicción de Vertex AI + Acceso a servicios privados (consulta "Cómo usar un extremo de Private Service Connect (regla de reenvío) para acceder a un servicio publicado") |
Latencia de red | Optimizado | No optimizado | Optimizado | Optimizado |
Encriptación en tránsito | TLS con certificado firmado por la AC | TLS con certificado firmado por la AC | TLS opcional con certificado autofirmado | Ninguno |
Tiempo de espera de inferencia | Configurable hasta por 1 hora | 60 segundos | Configurable hasta por 1 hora | 60 segundos |
Límite de tamaño de la carga útil | 10 MB | 1.5 MB | 10 MB | 10 MB |
Cuota de QPM | Ilimitado | 30,000 | Ilimitado | Ilimitado |
Compatibilidad con protocolos | HTTP o gRPC | HTTP | HTTP o gRPC | HTTP |
Compatibilidad con la transmisión | Sí (SSE) | No | Sí (SSE) | No |
División del tráfico | Sí | Sí | Sí | No |
Registro de solicitudes y respuestas | Sí | Sí | Sí | No |
Registro de acceso | Sí | Sí | Sí | No |
Implementación de modelos de Gemini ajustados | No | Sí | No | No |
Modelos de AutoML y explicabilidad | No | Sí | No | No |
Bibliotecas cliente compatibles | SDK de Vertex AI para Python | Bibliotecas cliente de Vertex AI, SDK de Vertex AI para Python | SDK de Vertex AI para Python | SDK de Vertex AI para Python |
¿Qué sigue?
- Obtén más información para implementar un modelo en un extremo.