Se usó la API de Cloud Translation para traducir esta página.

Elige un tipo de extremo

Para implementar un modelo para la inferencia en línea, necesitas un extremo. Los extremos se pueden dividir en los siguientes tipos:

Se puede acceder a los extremos públicos a través de Internet pública. Son más fáciles de usar, ya que no se requiere infraestructura de red privada. Existen dos tipos de extremos públicos: dedicados y compartidos. Un extremo público dedicado es un extremo más rápido que proporciona aislamiento de producción, admite tamaños de carga útil más grandes y tiempos de espera de solicitudes más largos que un extremo público compartido. Además, cuando envías una solicitud de inferencia a un extremo público dedicado, esta se aísla del tráfico de otros usuarios. Por estos motivos, se recomiendan los extremos públicos dedicados como práctica recomendada.
Los extremos privados dedicados que usan Private Service Connect proporcionan una conexión segura para la comunicación privada entre las instalaciones locales yGoogle Cloud. Se pueden usar para controlar el tráfico de las APIs de Google a través de las APIs de Private Service Connect. Se recomiendan como práctica recomendada.
Los extremos privados también proporcionan una conexión segura a tu modelo y se pueden usar para la comunicación privada entre las instalaciones locales yGoogle Cloud. Usan el acceso privado a servicios a través de una conexión de intercambio de tráfico entre redes de VPC.

Para obtener más información sobre cómo implementar un modelo en un extremo, consulta Implementa un modelo en un extremo.

En la siguiente tabla, se comparan los tipos de extremos admitidos para la entrega de inferencias en línea de Vertex AI.

	Extremo público dedicado (recomendado)	Extremo público compartido	Extremo privado dedicado con Private Service Connect (recomendado)	Extremo privado
Objetivo	Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet pública.	Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet pública.	Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y las respuestas se enruten de forma privada.	Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y las respuestas se enruten de forma privada.
Acceso a redes	Internet pública con un plano de redes dedicado	Internet pública con plano de redes compartido	Redes privadas con el extremo de Private Service Connect	Redes privadas con acceso privado a servicios (intercambio de tráfico entre redes de VPC)
Controles del servicio de VPC	No compatible. En su lugar, usa un extremo privado dedicado.	Admitido	Compatible	Admitido
Costo	Vertex AI Inference	Vertex AI Inference	Vertex AI Inference + endpoint de Private Service Connect	Vertex AI Inference + Acceso privado a servicios (consulta "Usar un extremo de Private Service Connect [regla de reenvío] para acceder a un servicio publicado")
Latencia de red	Optimizado	Sin optimizar	Optimizado	Optimizado
Encriptación en tránsito	TLS con certificado firmado por la CA	TLS con certificado firmado por la CA	TLS opcional con certificado autofirmado	Ninguno
Tiempo de espera de inferencia	Configurable hasta 1 hora	60 segundos	Configurable hasta 1 hora	60 segundos
Límite de tamaño de la carga útil	10 MB	1.5 MB	10 MB	10 MB
Cuota de QPM	Ilimitado	30,000	Ilimitado	Ilimitado
Compatibilidad con protocolos	HTTP o gRPC	HTTP	HTTP o gRPC	HTTP
Compatibilidad con la transmisión	Sí (SSE)	No	Sí (SSE)	No
División del tráfico	Sí	Sí	Sí	No
Registro de solicitudes y respuestas	Sí	Sí	Sí	No
Registro de acceso	Sí	Sí	Sí	No
Implementación de modelos de Gemini ajustados	No	Sí	No	No
Modelos de AutoML y explicabilidad	No	Sí	No	No
Bibliotecas cliente compatibles	SDK de Vertex AI para Python	Bibliotecas cliente de Vertex AI, SDK de Vertex AI para Python	SDK de Vertex AI para Python	SDK de Vertex AI para Python

¿Qué sigue?

Obtén más información para implementar un modelo en un extremo.

Elige un tipo de extremo Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

¿Qué sigue?

Elige un tipo de extremo