Implementa un modelo con la consola de Google Cloud

En la consola de Google Cloud, puedes crear un extremo público y, luego, implementar un modelo en él.

Los modelos se pueden implementar desde la página de predicciones en línea o la página del registro de modelos.

Implementa un modelo desde la página Predicción en línea

En la página Predicción en línea, puedes crear un extremo y, luego, implementar uno o más modelos en él de la siguiente manera:

  1. En la consola de Google Cloud, en la sección Vertex AI, ve a la página Predicción en línea.

    Ir a la página Predicción en línea

  2. Haz clic en Crear.

  3. En el panel Nuevo extremo, haz lo siguiente:

    1. Ingresa el Nombre del extremo.

    2. Selecciona Estándar para el tipo de acceso.

    3. Para crear un extremo público dedicado (no compartido), selecciona la casilla de verificación Habilitar DNS dedicado.

    4. Haz clic en Continuar.

  4. En el panel Configuración del modelo, haz lo siguiente:

    1. Selecciona tu modelo de la lista desplegable.

    2. Elige la versión del modelo en la lista desplegable.

    3. Ingresa el porcentaje de División del tráfico para el modelo.

    4. Haz clic en Listo.

    5. Repite estos pasos para los modelos adicionales que se implementarán.

Implementa un modelo desde la página Model Registry

En la página Model Registry, puedes implementar un modelo en uno o más extremos nuevos o existentes de la siguiente manera:

  1. En la sección Vertex AI de la consola de Google Cloud, ve a la página Modelos.

    Ve a la página Modelos

  2. Haz clic en el nombre y el ID de la versión del modelo que deseas implementar para abrir su página de detalles.

  3. Selecciona la pestaña Implementar y probar.

    Si tu modelo ya está implementado en un extremo, se enumeran en la sección Implementa tu modelo.

  4. Haz clic en Implementar en el extremo.

  5. Para implementar tu modelo en un extremo nuevo, haz lo siguiente:

    1. Selecciona Crear extremo nuevo.
    2. Proporciona un nombre para el extremo nuevo.
    3. Para crear un extremo público dedicado (no compartido), selecciona la casilla de verificación Habilitar DNS dedicado.
    4. Haz clic en Continuar.

    Para implementar tu modelo en un extremo existente, sigue estos pasos:

    1. Selecciona Agregar a extremo existente.
    2. Selecciona el extremo de la lista desplegable.
    3. Haz clic en Continuar.

    Puedes implementar varios modelos en un extremo o puedes implementar el mismo modelo en varios extremos.

  6. Si implementas tu modelo en un extremo existente que tiene uno o más modelos implementados, debes actualizar el porcentaje de división del tráfico del modelo que estás implementando y el que ya se implementó, para que todos los porcentajes sumen 100%.

  7. Si implementas tu modelo en un extremo nuevo, acepta 100 para la división del tráfico. De lo contrario, ajusta los valores de división del tráfico para todos los modelos en el extremo para sumar hasta 100.

  8. Ingresa la cantidad mínima de nodos de procesamiento que deseas proporcionar para el modelo.

    Esta es la cantidad de nodos que deben estar disponibles para el modelo en todo momento.

    Se te cobrará por los nodos que se usaron, ya sea para controlar la carga de la predicción o para los nodos en espera (mínimo), incluso sin tráfico de predicción. Consulta la página de precios.

    La cantidad de nodos de procesamiento puede aumentar si es necesario para manejar el tráfico de predicción, pero nunca superará la cantidad máxima de nodos.

  9. Para usar el ajuste de escala automático, escribe la cantidad máxima de nodos de procesamiento que quieres que Vertex AI escale de forma vertical.

  10. Selecciona el Tipo de máquina.

    Los recursos de máquina más grandes aumentarán el rendimiento de tu predicción y los costos. Compara los tipos de máquinas disponibles.

  11. Selecciona un Tipo de acelerador y un Recuento de acelerador.

    Si habilitaste el uso del acelerador cuando importaste o creaste el modelo, se muestra esta opción.

    Para conocer la cantidad de aceleradores, consulta la tabla de GPU a fin de verificar la cantidad válida de GPU que puedes usar con cada tipo de máquina de CPU. El recuento de aceleradores se refiere a la cantidad de aceleradores por nodo, no a la cantidad total de aceleradores en tu implementación.

  12. Si deseas usar una cuenta de servicio personalizada para la implementación, elige una en el cuadro desplegable Cuenta de servicio.

  13. Obtén más información para cambiar la configuración predeterminada para el registro de predicción.

  14. Haz clic en Listo para tu modelo y, cuando todos los porcentajes de división del tráfico sean correctos, haz clic en Continuar.

    Se muestra la región en la que se implementa tu modelo. Esta debe ser la región en la que creaste tu modelo.

  15. Haz clic en Implementar para implementar el modelo en el extremo.

¿Qué sigue?