Esta página se ha traducido con Cloud Translation API.

Crear alertas de métricas de Dataproc

Puedes crear una alerta de Monitoring que te avise cuando una métrica de un clúster o un trabajo de Dataproc supere un umbral especificado.

Crear una alerta

Abre la página Alertas en la Google Cloud consola.
Haz clic en + Crear política para abrir la página Crear política de alertas.
1. Haz clic en Seleccionar métrica.
  Para ver todas las métricas de Dataproc disponibles, no solo las relacionadas con un clúster o un trabajo, desactive la opción "Mostrar solo los recursos y las métricas activos".
2. En el cuadro de entrada "Filtrar por nombre de recurso o métrica", escribe "dataproc" para ver las métricas de Dataproc. Desplázate por la jerarquía de métricas de Cloud Dataproc para seleccionar una métrica de clúster, tarea, lote o sesión.
3. Haz clic en Aplicar.
4. Haz clic en Siguiente para abrir el panel Configurar activador de alerta.
5. Define un valor de umbral para activar la alerta.
6. Haz clic en Siguiente para abrir el panel Configurar notificaciones y finalizar alerta.
7. Define los canales de notificaciones, la documentación y el nombre de la política de alertas.
8. Haz clic en Siguiente para revisar la política de alertas.
9. Haz clic en Crear política para crear la alerta.

Alertas de muestra

En esta sección se describe una alerta de ejemplo de un trabajo enviado al servicio Dataproc y una alerta de un trabajo ejecutado como una aplicación YARN.

Alerta de tarea de Dataproc de larga duración

Dataproc emite la métrica dataproc.googleapis.com/job/state, que registra el tiempo que ha estado una tarea en diferentes estados. Esta métrica se encuentra en el explorador de métricas de la consola Google Cloud , en el recurso Trabajo de Cloud Dataproc (cloud_dataproc_job). Puede usar esta métrica para configurar una alerta que le avise cuando el estado del trabajo RUNNING supere un umbral de duración (el límite máximo del umbral es de 7 días). Para configurar una alerta para un trabajo que se espera que se ejecute durante más de 7 días, consulta Alerta de aplicación YARN de larga duración.

Configuración de alertas de duración de tareas

En este ejemplo, se usa el lenguaje de consulta de Prometheus (PromQL) para crear una política de alertas. Para obtener más información, consulta Crear políticas de alertas basadas en PromQL (consola).

sum by (job_id, state) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="RUNNING"
}) != 0

Para que esta alerta se active cuando una tarea se haya ejecutado durante más de 30 minutos, en la pestaña Configurar activador, define el Intervalo de evaluación en 30 minutos.

Puedes modificar la consulta filtrando por job_id para aplicarla a una tarea específica:

sum by (job_id) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="RUNNING",
  "job_id"="1234567890"
}) != 0

Alerta de aplicación YARN de larga duración

En el ejemplo anterior se muestra una alerta que se activa cuando una tarea de Dataproc se ejecuta durante más tiempo del especificado, pero solo se aplica a las tareas enviadas al servicio de Dataproc mediante la consola Google Cloud , la CLI de Google Cloud o llamadas directas a la API de jobs Dataproc. También puedes usar métricas de OSS para configurar alertas similares que monitoricen el tiempo de ejecución de las aplicaciones de YARN.

Primero, un poco de contexto. YARN emite métricas de tiempo de ejecución en varios contenedores. De forma predeterminada, YARN mantiene 60, 300 y 1440 minutos como umbrales de los contenedores y emite 4 métricas: running_0, running_60, running_300 y running_1440.

running_0 registra el número de trabajos con un tiempo de ejecución de entre 0 y 60 minutos.
running_60 registra el número de trabajos con un tiempo de ejecución entre 60 y 300 minutos.
running_300 registra el número de trabajos con un tiempo de ejecución entre 300 y 1440 minutos.
running_1440 registra el número de tareas con un tiempo de ejecución superior a 1440 minutos.

Por ejemplo, un trabajo que se ejecute durante 72 minutos se registrará en running_60, pero no en running_0.

Estos umbrales predeterminados de los contenedores se pueden modificar enviando nuevos valores a la yarn:yarn.resourcemanager.metrics.runtime.buckets propiedad de clúster durante la creación del clúster de Dataproc. Cuando defina umbrales de contenedor personalizados, también deberá definir anulaciones de métricas. Por ejemplo, para especificar umbrales de 30, 60 y 90 minutos, el comando gcloud dataproc clusters create debe incluir las siguientes marcas:

Umbrales de los segmentos: ‑‑properties=yarn:yarn.resourcemanager.metrics.runtime.buckets=30,60,90
Anulaciones de métricas: ‑‑metric-overrides=yarn:ResourceManager:QueueMetrics:running_0, yarn:ResourceManager:QueueMetrics:running_30,yarn:ResourceManager:QueueMetrics:running_60, yarn:ResourceManager:QueueMetrics:running_90

Comando de creación de clúster de ejemplo

gcloud dataproc clusters create test-cluster  \
   --properties ^#^yarn:yarn.resourcemanager.metrics.runtime.buckets=30,60,90  \
   --metric-sources=yarn  \
   --metric-overrides=yarn:ResourceManager:QueueMetrics:running_0,yarn:ResourceManager:QueueMetrics:running_30,yarn:ResourceManager:QueueMetrics:running_60,yarn:ResourceManager:QueueMetrics:running_90

Estas métricas se muestran en el Google Cloud explorador de métricas de la consola en el recurso Instancia de VM (gce_instance).

Configuración de alertas de aplicaciones de YARN

Crea un clúster con los segmentos y las métricas necesarios habilitados.
Crea una política de alertas que se active cuando el número de aplicaciones de un contenedor de métricas de YARN supere un umbral especificado.
- También puedes añadir un filtro para recibir alertas sobre los clústeres que coincidan con un patrón.
- Configura el umbral para activar la alerta.

Alerta de tarea de Dataproc fallida

También puede usar la métrica dataproc.googleapis.com/job/state (consulte Alerta de tarea de Dataproc de larga duración) para recibir una alerta cuando falle una tarea de Dataproc.

No se ha podido configurar la alerta de empleo

Alerta de PromQL

sum by (job_id, state) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="ERROR"
}) != 0

Configuración de activación de alertas

En el siguiente ejemplo, la alerta se activa cuando falla cualquier trabajo de Dataproc en tu proyecto.

Puedes modificar la consulta filtrando por job_id para aplicarla a una tarea específica:

sum by (job_id) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="ERROR",
  "job_id"="1234567890"
}) != 0

Alerta de desviación de la capacidad del clúster

Dataproc emite la métrica dataproc.googleapis.com/cluster/capacity_deviation, que indica la diferencia entre el número de nodos esperado en el clúster y el número de nodos de YARN activos. Puedes encontrar esta métrica en el Google Cloud explorador de métricas de la consola, en el recurso Clúster de Cloud Dataproc. Puede usar esta métrica para crear una alerta que le avise cuando la capacidad del clúster se desvíe de la capacidad esperada durante un periodo superior a un umbral especificado.

Las siguientes operaciones pueden provocar que se comuniquen menos nodos de clúster de lo habitual en la métrica capacity_deviation. Para evitar alertas falsas positivas, define el umbral de la alerta de métrica de forma que tenga en cuenta estas operaciones:

Creación y actualizaciones de clústeres: la métrica capacity_deviation no se emite durante las operaciones de creación o actualización de clústeres.
Acciones de inicialización de clústeres: las acciones de inicialización se realizan después de aprovisionar un nodo.
Actualizaciones de los trabajadores secundarios: los trabajadores secundarios se añaden de forma asíncrona una vez que se completa la operación de actualización.

La ventana retrospectiva máxima de la métrica de clúster capacity_deviation es de 7 días. Si no se produce ninguna operación de actualización de clúster en los últimos 7 días, la métrica estará vacía.

Configuración de alertas de desviación de capacidad

{
  "__name__"="dataproc.googleapis.com/cluster/capacity_deviation",
  "monitored_resource"="cloud_dataproc_cluster"
} != 0

En el siguiente ejemplo, la alerta se activa cuando la desviación de la capacidad del clúster es distinta de cero durante más de 30 minutos.

Ver alertas

Cuando una alerta se activa por una condición de umbral de métrica, Monitoring crea un incidente y un evento correspondiente. Puedes ver los incidentes en la página Alertas de monitorización de la consola Google Cloud .

Si has definido un mecanismo de notificación en la política de alertas, como una notificación por correo electrónico o SMS, Monitoring envía una notificación del incidente.

Siguientes pasos

Consulta la introducción a las alertas.