Más información sobre las predicciones en línea

Vertex AI ofrece predicciones en línea en Google Distributed Cloud (GDC) aislado a través de la API de Online Prediction. Una predicción es el resultado de un modelo de aprendizaje automático entrenado. Específicamente, las predicciones en línea son solicitudes síncronas realizadas en el extremo de tu modelo.

La Predicción en línea te permite subir, implementar, entregar y realizar solicitudes con tus propios modelos de predicción en un conjunto de contenedores compatibles. Usa la predicción en línea cuando realices solicitudes en respuesta a la entrada de la aplicación o en situaciones que requieran una inferencia oportuna.

Puedes usar la API de Online Prediction si aplicas recursos personalizados de Kubernetes al clúster de predicción dedicado que crea tu operador de infraestructura (IO) para ti.

Antes de obtener predicciones en línea, debes exportar los artefactos del modelo y deploy el modelo en un extremo. Esta acción asocia recursos de procesamiento con el modelo para entregar predicciones en línea con baja latencia.

Luego, puedes obtener predicciones en línea de un modelo entrenado personalizado dándole formato y enviando una solicitud.

Imágenes de contenedor disponibles

En la siguiente tabla, se incluye la lista de contenedores compatibles con la predicción en línea en Distributed Cloud:

Framework de AA Versión Aceleradores compatibles Imágenes compatibles
TensorFlow 2.14 CPU tf2-cpu.2-14
GPU tf2-gpu.2-14
PyTorch 2.4 CPU pytorch-cpu.2-4
GPU pytorch-gpu.2-4
2.1 (OBSOLETO) CPU pytorch-cpu.2-1
GPU pytorch-gpu.2-1