Supervisa y optimiza los recursos de trabajo a través de las métricas

En este documento, se describe cómo supervisar y optimizar los recursos de un trabajo de Batch visualizando las métricas en Cloud Monitoring. Para obtener más información sobre los recursos en los que se ejecuta un trabajo, consulta Recursos de trabajo.

Para cualquier trabajo, Monitoring proporciona métricas básicas, como la utilización de la CPU y el tráfico de red. Sin embargo, algunas métricas, como el uso de memoria y procesos, solo se pueden recopilar si un trabajo instala el Agente de operaciones. Las métricas de los recursos de un trabajo te ayudan a evaluar el rendimiento y la utilización de cada recurso. Esta información puede ayudarte a identificar mejoras para las iteraciones futuras del trabajo. Por ejemplo, puedes quitar recursos no utilizados para optimizar los costos o mejorar o aumentar los recursos sobrecargados para mejorar el rendimiento.

Antes de comenzar

  1. Si nunca usaste Batch, revisa Cómo comenzar a usar Batch y habilita Batch completando los requisitos previos para proyectos y usuarios.
  2. Opcional: Para recopilar métricas adicionales de un trabajo, crea y ejecuta un trabajo que instale automáticamente el Agente de operaciones.
  3. Si tu proyecto aún no lo hizo, habilita la API de Monitoring:

    Enable the API

  4. Para obtener los permisos que necesitas para ver las métricas de observabilidad, pídele a tu administrador que te otorgue el rol de IAM de Visualizador de métricas de Monitoring (roles/monitoring.metricViewer) en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

    También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Consulta las métricas de los recursos de trabajo

En la sección Observa y supervisa VMs de la documentación de Compute Engine, se proporciona información conceptual pertinente sobre las métricas de VM. Sin embargo, se recomiendan diferentes métodos para ver las métricas de VM de los trabajos de Batch. Específicamente, la documentación de Compute Engine explica cómo ver las métricas con los paneles predefinidos de Monitoring para Compute Engine o las páginas de Compute Engine en la consola de Google Cloud . Sin embargo, es importante destacar que esos métodos no muestran información sobre las VMs que se borraron. Por lo tanto, no uses esos métodos a menos que solo quieras ver las métricas de los trabajos por lotes mientras se ejecutan.

Consulta las métricas de los trabajos por lotes en ejecución y finalizados con los gráficos del Explorador de métricas, como se explica en esta sección. En particular, los gráficos son temporales, a menos que los guardes en paneles personalizados.

Para crear un gráfico para ver una o más métricas, haz lo siguiente:

  1. Opcional: Si planeas guardar el gráfico, identifica o crea un panel personalizado para el gráfico.
  2. Crea un gráfico del Explorador de métricas para una o más métricas.

    Sin filtros, cada métrica de VM en un gráfico incluye datos de todas las VMs de tu proyecto. De manera opcional, si deseas filtrar el gráfico para que solo incluya métricas de todos los trabajos por lotes o de trabajos por lotes específicos, agrega el siguiente filtro:

    group=RESOURCE_GROUP_NAME
    

    Reemplaza RESOURCE_GROUP_NAME por el nombre de un grupo de recursos para los trabajos por lotes. Para obtener más información, consulta Crea grupos de recursos para filtrar métricas en este documento.

Crea grupos de recursos para filtrar métricas

Puedes usar grupos de recursos como filtros personalizables para los gráficos del Explorador de métricas. Para crear un grupo de recursos para todos los trabajos de Batch o para trabajos específicos en tu proyecto, haz lo siguiente:

  1. Selecciona una etiqueta para usarla como criterio de membresía según los trabajos que desees incluir en el grupo:

    • Todos los trabajos por lotes: Usa la etiqueta batch-node predefinida, que se aplica automáticamente a todos los recursos de todos los trabajos por lotes y tiene un valor nulo.
    • Trabajos de Batch específicos: Usa una etiqueta que se aplique a los recursos solo para trabajos de Batch específicos.

      Por ejemplo, si deseas crear un grupo basado en nombres de trabajos completos o parciales, usa el nombre de etiqueta predefinido batch-job-id con un valor específico. La etiqueta batch-job-id se aplica automáticamente a todos los recursos de todos los trabajos por lotes y se define con el nombre del trabajo.

      Como alternativa, si usas una etiqueta personalizada, debes aplicarla a todos los recursos de los trabajos por lotes que desees incluir en el grupo cuando crees los trabajos.

  2. Asegúrate de que tu proyecto tenga al menos un trabajo con la etiqueta seleccionada y que este trabajo esté en el estado RUNNING. De lo contrario, esta etiqueta no aparecerá como opción cuando intentes crear el grupo de recursos.

  3. Crea un grupo de recursos. Cuando especifiques los criterios de membresía, haz lo siguiente:

    1. Configura el Tipo como Etiqueta.
    2. Establece el campo Etiqueta en el nombre de la etiqueta seleccionada. Luego, configura los siguientes campos según los valores de etiqueta que deseas que incluya el grupo.

      Por ejemplo, si deseas que este grupo incluya todos los trabajos por lotes, establece Etiqueta en batch-node y Operador en Existe. Como alternativa, si quieres que este grupo incluya trabajos por lotes con nombres que comiencen con test, establece Etiqueta en batch-job-id, Operador en Comienza con y Valor en test.

¿Qué sigue?