Esta página se ha traducido con Cloud Translation API.

Elige un tipo de endpoint

Para desplegar un modelo para la inferencia online, necesitas un endpoint. Los endpoints se pueden dividir en los siguientes tipos:

Se puede acceder a los endpoints públicos a través de Internet. Son más fáciles de usar, ya que no se necesita ninguna infraestructura de red privada. Hay dos tipos de endpoints públicos: dedicados y compartidos. Un endpoint público dedicado es un endpoint más rápido que ofrece aislamiento de producción, admite tamaños de carga útil más grandes y tiene tiempos de espera de solicitud más largos que un endpoint público compartido. Además, cuando envías una solicitud de inferencia a un endpoint público específico, se aísla del tráfico de otros usuarios. Por estos motivos, se recomienda usar endpoints públicos específicos.
Los puntos finales privados dedicados que usan Private Service Connect proporcionan una conexión segura para la comunicación privada entre las instalaciones locales yGoogle Cloud. Se pueden usar para controlar el tráfico de las APIs de Google mediante las APIs de Private Service Connect. Se recomienda como práctica recomendada.
Los puntos finales privados también proporcionan una conexión segura a tu modelo y se pueden usar para la comunicación privada entre las instalaciones locales yGoogle Cloud. Usan el acceso a servicios privados a través de una conexión de intercambio de tráfico entre redes de VPC.

Para obtener más información sobre cómo desplegar un modelo en un endpoint, consulta el artículo Desplegar un modelo en un endpoint.

En la siguiente tabla se comparan los tipos de endpoints admitidos para ofrecer inferencias online de Vertex AI.

	Endpoint público dedicado (opción recomendada)	Endpoint público compartido	Endpoint privado dedicado con Private Service Connect (opción recomendada)	Endpoint privado
Finalidad	Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público.	Experiencia de redes predeterminada. Permite enviar solicitudes desde Internet público.	Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada.	Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red al asegurarse de que las solicitudes y las respuestas se enruten de forma privada.
Acceso a la red	Internet público con un plano de red dedicado	Internet público mediante un plano de red compartido	Redes privadas con un endpoint de Private Service Connect	Redes privadas mediante el acceso a servicios privados (emparejamiento entre redes de VPC)
Controles de Servicio de VPC	No es compatible. En su lugar, usa un endpoint privado específico.	Compatible	Compatible	Compatible
Coste	Inferencia de Vertex AI	Inferencia de Vertex AI	Inferencia de Vertex AI + endpoint de Private Service Connect	Inferencia de Vertex AI + Acceso privado a servicios (consulta "Usar un punto final de Private Service Connect [regla de reenvío] para acceder a un servicio publicado")
Latencia de la red	Optimizado	Sin optimizar	Optimizado	Optimizado
Encriptado en tránsito	TLS con certificado firmado por una CA	TLS con certificado firmado por una CA	TLS opcional con certificado autofirmado	Ninguno
Tiempo de espera de inferencia	Se puede configurar hasta 1 hora	60 segundos	Se puede configurar hasta 1 hora	60 segundos
Límite de tamaño de la carga útil	10 MB	1,5 MB	10 MB	10 MB
Cuota de QPM	Ilimitado	30.000	Ilimitado	Ilimitado
Compatibilidad con protocolos	HTTP o gRPC	HTTP	HTTP o gRPC	HTTP
Compatibilidad con streaming	Sí (SSE)	No	Sí (SSE)	No
División del tráfico	Sí	Sí	Sí	No
Registro de solicitudes y respuestas	Sí	Sí	Sí	No
Registro de acceso	Sí	Sí	Sí	No
Despliegue de modelos de Gemini ajustados	No	Sí	No	No
Modelos de AutoML e interpretabilidad	No	Sí	No	No
Bibliotecas de cliente admitidas	SDK de Vertex AI para Python	Bibliotecas de cliente de Vertex AI y SDK de Vertex AI para Python	SDK de Vertex AI para Python	SDK de Vertex AI para Python

Siguientes pasos

Más información sobre cómo desplegar un modelo en un endpoint