En esta página, se proporciona orientación para implementar un modelo de IA generativo en un extremo para la predicción en línea.
Revisa Model Garden
Si el modelo está en Model Garden, puedes implementarlo si haces clic en Implementar (disponible para algunos modelos) o en Abrir notebook.
De lo contrario, puedes realizar una de las siguientes acciones:
Si tu modelo es similar a uno en Model Garden, es posible que puedas volver a usar directamente uno de los contenedores de Model Garden.
Compila tu propio contenedor personalizado que cumpla con los requisitos de los contenedores personalizados para la predicción antes de importa tu modelo en Vertex AI Model Registry. Después de importarse, se convierte en un recurso
model
que puedes implementar en un extremo.Puedes usar los Dockerfiles y las secuencias de comandos que usamos para compilar nuestros contenedores de Model Garden como referencia o punto de partida para compilar tus propios contenedores personalizados.
Entrega predicciones con NVIDIA NIM
Los microservicios de inferencia de NVIDIA (NIM) son modelos de IA optimizados y previamente entrenados que se empaquetan como microservicios. Están diseñados para simplificar la implementación de IA de alto rendimiento y lista para producción en aplicaciones.
NVIDIA NIM se puede usar junto con Artifact Registry y Vertex AI Prediction para implementar modelos de IA generativa para la predicción en línea.
Configuración para los contenedores personalizados
En esta sección, se describen los campos de
containerSpec
del modelo que es posible que debas
especificar cuando importes modelos de IA generativa.
Puedes especificar estos campos con la API de REST de Vertex AI o el
comando gcloud ai models upload
.
Para obtener más información, consulta
Campos de API relacionados con contenedores.
sharedMemorySizeMb
Algunos modelos de IA generativa requieren más memoria compartida. La memoria compartida es un mecanismo de comunicación entre procesos (IPC) que permite que varios procesos accedan a un bloque común de memoria y lo manipulen. El tamaño de memoria compartida predeterminado es de 64 MB.
Algunos servidores de modelos, como vLLM o Nvidia Triton, usan la memoria compartida para almacenar en caché datos internos durante las inferencias del modelo. Sin suficiente memoria compartida, algunos servidores de modelos no pueden entregar predicciones para modelos generativos. La cantidad de memoria compartida necesaria, si la hay, es un detalle de implementación de tu contenedor y modelo. Consulta la documentación de tu servidor de modelos para obtener lineamientos.
Además, debido a que la memoria compartida se puede usar para la comunicación entre GPU, el uso de más memoria compartida puede mejorar el rendimiento de los aceleradores sin capacidades de NVLink (por ejemplo, L4), si el contenedor del modelo requiere la comunicación entre GPU.
Si deseas obtener información sobre cómo especificar un valor personalizado para la memoria compartida, consulta Campos de API relacionados con contenedores.
startupProbe
Un sondeo de inicio es un sondeo opcional que se usa para detectar cuándo se inició el contenedor. Este sondeo se usa para retrasar el sondeo de estado y las verificaciones en funcionamiento hasta que el contenedor se inicie, lo que ayuda a evitar que los contenedores de inicio lento se cierren de forma prematura.
Para obtener más información, consulta Verificaciones de estado.
healthProbe
El sondeo de estado verifica si un contenedor está listo para aceptar tráfico. Si no se proporciona un sondeo de estado, Vertex AI usará las verificaciones de estado predeterminadas que emiten una solicitud HTTP al puerto del contenedor y busca una respuesta
200 OK
del servidor del modelo.Si el servidor de tu modelo responde con
200 OK
antes de que el modelo se cargue por completo, lo cual es posible, en especial para modelos grandes, la verificación de estado se realizará de manera correcta y prematura y Vertex AI enrutará el tráfico al contenedor antes de que esté listo.En estos casos, especifica un sondeo de estado personalizado que se realice de forma correcta solo después de que el modelo esté completamente cargado y listo para aceptar tráfico.
Para obtener más información, consulta Verificaciones de estado.
Limitaciones
Ten en cuenta las siguientes limitaciones cuando implementes modelos de IA generativa:
- Los modelos de IA generativa solo se pueden implementar en una sola máquina. No se admite la implementación de varios hosts.
- En el caso de los modelos muy grandes que no se ajustan a la vRAM más grande admitida, como Llama 3.1 405B, recomendamos que se cuanticen para que se ajusten.