En esta página, se muestra cómo ejecutar un trabajo de entrenamiento personalizado en un recurso persistente a través de Google Cloud CLI, el SDK de Vertex AI para Python y la API de REST.
Por lo general, cuando creas un trabajo de entrenamiento personalizado, debes especificar los recursos de procesamiento que el trabajo usa para crear y ejecutarse. Después de crear un recurso persistente, puedes configurar el trabajo de entrenamiento personalizado para que se ejecute en uno o más grupos de recursos de ese recurso persistente. Ejecutar un trabajo de entrenamiento personalizado en un recurso persistente reduce de manera significativa el tiempo de inicio del trabajo que, de lo contrario, es necesario para crear un recurso de procesamiento.
Roles obligatorios
Para obtener el permiso que necesitas para ejecutar trabajos de entrenamiento personalizados en un recurso persistente, pídele a tu administrador que te otorgue el rol de IAM de usuario de Vertex AI (roles/aiplatform.user
) en tu proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso aiplatform.customJobs.create
, que se requiere para ejecutar trabajos de entrenamiento personalizados en un recurso persistente.
También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.
Crea un trabajo de entrenamiento que se ejecute en un recurso persistente
Para crear un trabajo de entrenamiento personalizado que se ejecute en un recurso persistente, realiza las siguientes modificaciones en las instrucciones estándar para crear un trabajo de entrenamiento personalizado:
gcloud
- Especifica la marca
--persistent-resource-id
y establece el valor en el ID del recurso persistente (PERSISTENT_RESOURCE_ID) que deseas usar. - Especifica la marca
--worker-pool-spec
para que los valores paramachine-type
ydisk-type
coincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica una--worker-pool-spec
para el entrenamiento de nodo único y varios para el entrenamiento distribuido. - Especifica un valor para
replica-count
menor o igual quereplica-count
omax-replica-count
del grupo de recursos correspondiente.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.
REST
- Especifica el parámetro
persistent_resource_id
y establece el valor en el ID del recurso persistente (PERSISTENT_RESOURCE_ID) que deseas usar. - Especifica el parámetro
worker_pool_specs
, de modo que los valores demachine_spec
ydisk_spec
de cada grupo de recursos coincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica unmachine_spec
para el entrenamiento de nodo único y varios para el entrenamiento distribuido. - Especifica un
replica_count
menor o igual que elreplica_count
omax_replica_count
del grupo de recursos correspondiente, sin incluir el recuento de réplicas de cualquier otro trabajo que se ejecute en ese grupo de recursos.
¿Qué sigue?
- Obtén más información sobre el recurso persistente.
- Crea y usa un recurso persistente.
- Obtén información sobre un recurso persistente.
- Reinicia un recurso persistente.
- Borra un recurso persistente.