En esta página, se describe cómo volver a intentar automáticamente las tareas después de todas o algunas fallas.
Un trabajo por lotes falla cuando al menos una de sus tareas falla, lo que puede ocurrir por varios motivos. De forma predeterminada, cada tarea de un trabajo solo se ejecuta una vez; si una tarea falla, no se reintenta. Sin embargo, algunos problemas que provocan que una tarea falle se pueden resolver fácilmente volviendo a intentarlo. En estos casos, configurar el trabajo para que vuelva a intentar las tareas automáticamente puede ayudar a reducir la fricción en la solución de problemas y el tiempo de ejecución general de tus trabajos.
Los reintentos automáticos son adecuados para las tareas poco acopladas (independientes) y pueden ayudar con una variedad de problemas. Por ejemplo, los reintentos automáticos de tareas pueden resolver problemas urgentes, como los siguientes:
- Interrupción de VMs Spot
- Eventos de mantenimiento de la VM y errores del host
- Errores de red transitorios
Puedes configurar reintentos automáticos de tareas para cada tarea cuando creas un trabajo. Específicamente, para cada tarea, puedes usar una de las siguientes opciones de configuración:
- De forma predeterminada, no se reintenta cada tarea cuando falla.
- Reintenta las tareas para todas las fallas: Puedes configurar la cantidad máxima de veces que se reintentarán automáticamente las tareas con errores. Puedes especificar entre 0 (valor predeterminado) y 10 reintentos.
- Reintenta tareas para algunos errores: Puedes configurar diferentes acciones de tareas (reintento automático o falla sin reintento) para errores específicos. La acción opuesta se realiza para todas las fallas no especificadas. Cada falla específica se puede identificar con un código de salida que define tu aplicación o Batch.
Antes de comenzar
- Si nunca usaste Batch, revisa Cómo comenzar a usar Batch y habilita Batch completando los requisitos previos para proyectos y usuarios.
-
Para obtener los permisos que necesitas para crear un trabajo, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Editor de trabajos por lotes (
roles/batch.jobsEditor
) en el proyecto -
Usuario de cuenta de servicio (
roles/iam.serviceAccountUser
) en la cuenta de servicio del trabajo, que, de forma predeterminada, es la cuenta de servicio predeterminada de Compute Engine
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
-
Editor de trabajos por lotes (
Reintenta las tareas para todos los errores
Puedes definir el número máximo de reintentos automáticos (campo maxRetryCount
) para las tareas con errores de un trabajo con gcloud CLI o la API de Batch.
gcloud
Crea un archivo JSON que especifique los detalles de configuración del trabajo y el campo
maxRetryCount
.Por ejemplo, para crear un trabajo de secuencia de comandos básico que especifique la cantidad máxima de reintentos para las tareas fallidas, crea un archivo JSON con el siguiente contenido:
{ "taskGroups": [ { "taskSpec": { "runnables": [ { "script": { "text": "echo Hello world from task ${BATCH_TASK_INDEX}" } } ], "maxRetryCount": MAX_RETRY_COUNT }, "taskCount": 3 } ], "logsPolicy": { "destination": "CLOUD_LOGGING" } }
Reemplaza
MAX_RETRY_COUNT
por la cantidad máxima de reintentos para cada tarea. Para que un trabajo pueda reintentar las tareas fallidas, este valor debe establecerse en un número entero entre1
y10
. Si no se especifica el campomaxRetryCount
, el valor predeterminado es0
, lo que significa que no se reintentará ninguna tarea.Para crear y ejecutar el trabajo, usa el comando
gcloud batch jobs submit
:gcloud batch jobs submit JOB_NAME \ --location LOCATION \ --config JSON_CONFIGURATION_FILE
Reemplaza lo siguiente:
JOB_NAME
: Es el nombre del trabajo.LOCATION
: La ubicación del trabajo.JSON_CONFIGURATION_FILE
: Es la ruta de acceso a un archivo JSON con los detalles de configuración del trabajo.
API
Realiza una solicitud POST
al método jobs.create
que especifique el campo maxRetryCount
.
Por ejemplo, para crear un trabajo de secuencia de comandos básico que especifique la cantidad máxima de reintentos para las tareas con errores, realiza la siguiente solicitud:
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "echo Hello world from task ${BATCH_TASK_INDEX}"
}
}
],
"maxRetryCount": MAX_RETRY_COUNT
},
"taskCount": 3
}
],
"logsPolicy": {
"destination": "CLOUD_LOGGING"
}
}
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID del proyecto de tu proyecto.LOCATION
: La ubicación del trabajo.JOB_NAME
: Es el nombre del trabajo.MAX_RETRY_COUNT
: Es la cantidad máxima de reintentos para cada tarea. Para que un trabajo pueda reintentar las tareas fallidas, este valor debe establecerse en un número entero entre1
y10
. Si no se especifica el campomaxRetryCount
, el valor predeterminado es0
, lo que significa que no se reintentará ninguna tarea.
Se reintentan las tareas en caso de algunos errores
Puedes definir cómo deseas que un trabajo controle las diferentes fallas de tareas con las políticas de ciclo de vida (campo lifecyclePolicies[]
).
Una política de ciclo de vida consta de una acción (campo action
), una condición de acción (campo actionCondition
) y un código de salida (campo exitCodes[]
).
La acción especificada se realiza cada vez que se produce la condición de acción, es decir, un código de salida específico.
Puedes especificar una de las siguientes acciones:
RETRY_TASK
: Vuelve a intentar las tareas que fallan con los códigos de salida especificados en el campoexitCodes[]
. No se reintentan las tareas que fallan con códigos de salida no especificados.FAIL_TASK
: No reintenta las tareas que fallan con los códigos de salida especificados en el campoexitCodes[]
. Se reintentan las tareas que fallan con códigos de salida no especificados.
En particular, las tareas que fallan con códigos de salida no especificados realizan la acción opuesta: algunos códigos de salida se reintentan y otros fallan.
Por lo tanto, para que la política de ciclo de vida funcione según lo previsto, también debes definir la cantidad máxima de reintentos automáticos (campo maxRetryCount
) para permitir que el trabajo reintente automáticamente las tareas fallidas al menos una vez.
Cada código de salida representa una falla específica que define tu aplicación o Batch. Los códigos de salida del 50001 al 59999 están reservados y definidos por Batch. Para obtener más información sobre los códigos de salida reservados, consulta Solución de problemas.
Puedes especificar que un trabajo vuelva a intentar o falle en las tareas después de errores específicos con gcloud CLI o la API de Batch.
gcloud
Crea un archivo JSON que especifique los detalles de configuración del trabajo, el campo
maxRetryCount
y los subcamposlifecyclePolicies[]
.Para crear un trabajo de secuencia de comandos básico que vuelva a intentar las tareas fallidas solo para algunos códigos de salida, crea un archivo JSON con el siguiente contenido:
{ "taskGroups": [ { "taskSpec": { "runnables": [ { "script": { "text": "echo Hello world from task ${BATCH_TASK_INDEX}" } } ], "maxRetryCount": MAX_RETRY_COUNT, "lifecyclePolicies": [ { "action": "ACTION", "actionCondition": { "exitCodes": [EXIT_CODES] } } ] } } ], "logsPolicy": { "destination": "CLOUD_LOGGING" } }
Reemplaza lo siguiente:
MAX_RETRY_COUNT
: Es la cantidad máxima de reintentos para cada tarea. Para que un trabajo pueda reintentar las tareas fallidas, este valor debe establecerse en un número entero entre1
y10
. Si no se especifica el campomaxRetryCount
, el valor predeterminado es0
, lo que significa que no se reintentará ninguna tarea.ACTION
: Es la acción, ya seaRETRY_TASK
oFAIL_TASK
, que deseas para las tareas que fallan con los códigos de salida especificados. Las tareas que fallan con códigos de salida no especificados realizan la otra acción.EXIT_CODES
: Es una lista separada por comas de uno o más códigos de salida que deseas que activen la acción especificada, por ejemplo,50001, 50002
.Tu aplicación o Batch pueden definir cada código de salida. Batch reserva los códigos de salida de
50001
a59999
. Para obtener más información sobre los códigos de salida reservados, consulta Solución de problemas.
Por ejemplo, el siguiente trabajo solo vuelve a intentar las tareas que fallan debido a la interrupción de las VMs Spot.
{ "taskGroups": [ { "taskSpec": { "runnables": [ { "script": { "text": "sleep 30" } } ], "maxRetryCount": 3, "lifecyclePolicies": [ { "action": "RETRY_TASK", "actionCondition": { "exitCodes": [50001] } } ] } } ], "allocationPolicy": { "instances": [ { "policy": { "machineType": "e2-standard-4", "provisioningModel": "SPOT" } } ] } }
Para crear y ejecutar el trabajo, usa el comando
gcloud batch jobs submit
:gcloud batch jobs submit JOB_NAME \ --location LOCATION \ --config JSON_CONFIGURATION_FILE
Reemplaza lo siguiente:
JOB_NAME
: Es el nombre del trabajo.LOCATION
: La ubicación del trabajo.JSON_CONFIGURATION_FILE
: Es la ruta de acceso a un archivo JSON con los detalles de configuración del trabajo.
API
Realiza una solicitud POST
al método jobs.create
que especifique el campo maxRetryCount
y los campos secundarios lifecyclePolicies[]
.
Para crear un trabajo de secuencia de comandos básico que reintente las tareas con errores solo para algunos códigos de salida, realiza la siguiente solicitud:
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "echo Hello world from task ${BATCH_TASK_INDEX}"
}
}
],
"maxRetryCount": MAX_RETRY_COUNT,
"lifecyclePolicies": [
{
"action": "ACTION",
"actionCondition": {
"exitCodes": [EXIT_CODES]
}
}
]
}
}
],
"logsPolicy": {
"destination": "CLOUD_LOGGING"
}
}
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID del proyecto de tu proyecto.LOCATION
: La ubicación del trabajo.JOB_NAME
: Es el nombre del trabajo.MAX_RETRY_COUNT
: Es la cantidad máxima de reintentos para cada tarea. Para que un trabajo pueda reintentar las tareas fallidas, este valor debe establecerse en un número entero entre1
y10
. Si no se especifica el campomaxRetryCount
, el valor predeterminado es0
, lo que significa que no se reintentará ninguna tarea.ACTION
: Es la acción, ya seaRETRY_TASK
oFAIL_TASK
, que deseas para las tareas que fallan con los códigos de salida especificados. Las tareas que fallan con códigos de salida no especificados realizan la otra acción.EXIT_CODES
: Es una lista separada por comas de uno o más códigos de salida que deseas que activen la acción especificada, por ejemplo,50001, 50002
.Tu aplicación o Batch pueden definir cada código de salida. Batch reserva los códigos de salida de
50001
a59999
. Para obtener más información sobre los códigos de salida reservados, consulta Solución de problemas.
Por ejemplo, el siguiente trabajo solo vuelve a intentar las tareas que fallan debido a la interrupción de las VMs Spot.
POST https://batch.googleapis.com/v1/projects/example-project/locations/us-central1/jobs?job_id=example-job
{
"taskGroups": [
{
"taskSpec": {
"runnables": [
{
"script": {
"text": "sleep 30"
}
}
],
"maxRetryCount": 3,
"lifecyclePolicies": [
{
"action": "RETRY_TASK",
"actionCondition": {
"exitCodes": [50001]
}
}
]
}
}
],
"allocationPolicy": {
"instances": [
{
"policy": {
"machineType": "e2-standard-4",
"provisioningModel": "SPOT"
}
}
]
}
}
Modifica el comportamiento de la tarea según la cantidad de reintentos
De manera opcional, después de habilitar los reintentos automáticos para una tarea, como se describe en las secciones anteriores de esta página, puedes actualizar tus ejecutables para que usen la variable de entorno predefinida BATCH_TASK_RETRY_ATTEMPT
.
La variable BATCH_TASK_RETRY_ATTEMPT
describe la cantidad de veces que ya se intentó esta tarea. Usa la variable BATCH_TASK_RETRY_ATTEMPT
en tus objetos ejecutables si quieres que una tarea se comporte de manera diferente según la cantidad de reintentos.
Por ejemplo, cuando se reintenta una tarea, es posible que desees confirmar qué comandos ya se ejecutaron correctamente en el intento anterior. Para obtener más información, consulta Variables de entorno predefinidas.
¿Qué sigue?
- Si tienes problemas para crear o ejecutar un trabajo, consulta Solución de problemas.
- Ver trabajos y tareas
- Obtén más información sobre las opciones de creación de trabajos.