La integración de Apache Flink recopila registros de clientes, jobmanager y taskmanager, y los analiza en una carga útil de JSON. El resultado incluye campos para la fuente, el nivel y el mensaje.
Para obtener más información sobre Flink, consulta la documentación de Apache Flink.
Requisitos previos
Para recopilar la telemetría de Flink, debes instalar el Agente de operaciones:
- Para las métricas, instala la versión 2.18.1 o una posterior.
- Para los registros, instala la versión 2.17.0 o una posterior.
Esta integración es compatible con las versiones 1.12.5, 1.13.6 y 1.14.4 de Flink.
Configura el agente de operaciones para Flink
Sigue la guía para configurar el Agente de operaciones, agrega los elementos necesarios a fin de recopilar telemetría de instancias de Flink y reiniciar el agente.
Configuración de ejemplo
Los siguientes comandos crean la configuración para recopilar y transferir la telemetría de Flink, y reinician el Agente de operaciones.
Configura la recopilación de registros
Para transferir registros desde Flink, debes crear un receptor para las registros que produce Flink y, luego, crear una canalización destinada al receptor nuevo.
A fin de configurar un receptor para tus registros flink
, especifica los siguientes campos:
Campo | Predeterminado | Descripción |
---|---|---|
exclude_paths |
Una lista de patrones de ruta de acceso del sistema de archivos que se excluirán del conjunto que coincide con include_paths . |
|
include_paths |
[/opt/flink/log/flink-*-standalonesession-*.log, /opt/flink/log/flink-*-taskexecutor-*.log, /opt/flink/log/flink-*-client-*.log] |
Una lista de rutas de acceso del sistema de archivos que se leerán a través de la visualización del final de cada archivo. Se puede usar un comodín (* ) en las rutas. |
record_log_file_path |
false |
Si se configura como true , la ruta al archivo específico desde el que se obtuvo el registro aparece en la entrada de registro de salida como el valor de la etiqueta agent.googleapis.com/log_file_path . Cuando se usa un comodín, solo se registra la ruta de acceso del archivo del que se obtuvo el registro. |
type |
Este valor debe ser flink . |
|
wildcard_refresh_interval |
60s |
El intervalo en el que se actualizan las rutas de acceso de archivos comodín en include_paths . Se proporciona como una duración, por ejemplo, 30s o 2m . Esta propiedad puede ser útil en el caso de una capacidad de procesamiento de registro alta en la que los archivos de registro se rotan más rápido que el intervalo predeterminado. |
¿Qué se registra?
logName
se deriva de los ID de receptor especificados en la configuración. Los campos detallados dentro de LogEntry
son los siguientes.
Los registros flink
contienen los siguientes campos en LogEntry
:
Campo | Tipo | Descripción |
---|---|---|
jsonPayload.level |
string | Nivel de entrada de registro |
jsonPayload.message |
string | Mensaje de registro, incluido el seguimiento de pila detallado cuando se proporciona |
jsonPayload.source |
string | La clase de Java de origen de la entrada de registro |
severity |
string (LogSeverity ) |
Nivel de entrada de registro (traducido). |
Configura la recopilación de métricas
Para transferir métricas desde Flink, debes crear un receptor para las métricas que produce Flink y, luego, crear una canalización destinada al receptor nuevo.
Este receptor no admite el uso de varias instancias en la configuración, por ejemplo, para supervisar varios extremos. Todas estas instancias escriben en las mismas series temporales, y Cloud Monitoring no tiene forma de distinguirlas.
Para configurar un receptor para las métricas de flink
, especifica los siguientes campos:
Campo | Predeterminado | Descripción |
---|---|---|
collection_interval |
60s |
Un valor de duración de tiempo, como 30s o 5m . |
endpoint |
http://localhost:8081 |
La URL que expone Flink. |
type |
Este valor debe ser flink . |
Qué se supervisa
En la siguiente tabla, se proporciona una lista de métricas que el Agente de operaciones recopila de la instancia Flink.
Tipo de métrica | |
---|---|
Categoría, tipo Recursos supervisados |
Etiquetas |
workload.googleapis.com/flink.job.checkpoint.count
|
|
CUMULATIVE , INT64 gce_instance |
checkpoint host_name job_name
|
workload.googleapis.com/flink.job.checkpoint.in_progress
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.size
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.last_checkpoint.time
|
|
GAUGE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.job.restart.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name
|
workload.googleapis.com/flink.jvm.class_loader.classes_loaded
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.load
|
|
GAUGE , DOUBLE gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.cpu.time
|
|
CUMULATIVE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.count
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.gc.collections.time
|
|
CUMULATIVE , INT64 gce_instance |
garbage_collector_name host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.direct.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.heap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.total_capacity
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.mapped.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.metaspace.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.committed
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.max
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.memory.nonheap.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.jvm.threads.count
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.total
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.memory.managed.used
|
|
GAUGE , INT64 gce_instance |
host_name resource_type taskmanager_id
|
workload.googleapis.com/flink.operator.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name operator_name record subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.operator.watermark.output
|
|
GAUGE , INT64 gce_instance |
host_name job_name operator_name subtask_index task_name taskmanager_id
|
workload.googleapis.com/flink.task.record.count
|
|
CUMULATIVE , INT64 gce_instance |
host_name job_name record subtask_index task_name taskmanager_id
|
Verifica la configuración
En esta sección, se describe cómo verificar que hayas configurado correctamente el receptor de Flink. El agente de operaciones puede tardar uno o dos minutos en comenzar a recopilar telemetría.
Para verificar que los registros de Flink se envíen a Cloud Logging, haz lo siguiente:
-
En la consola de Google Cloud, ve a la página Explorador de registros:
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Logging.
- Ingresa la siguiente consulta en el editor y, luego, haz clic en Ejecutar consulta:
resource.type="gce_instance" log_id("flink")
Para verificar que las métricas de Flink se envíen a Cloud Monitoring, haz lo siguiente:
-
En la consola de Google Cloud, ve a la página leaderboard Explorador de métricas:
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- En la barra de herramientas del panel del compilador de consultas, selecciona el botón cuyo nombre sea codeMQL o codePromQL.
- Verifica que MQL esté seleccionado en el botón de activación Lenguaje. El botón de activación de lenguaje se encuentra en la misma barra de herramientas que te permite dar formato a tu consulta.
- Ingresa la siguiente consulta en el editor y, luego, haz clic en Ejecutar consulta:
fetch gce_instance | metric 'workload.googleapis.com/flink.jvm.memory.heap.used' | every 1m
Ver panel
Para ver tus métricas de Flink, debes tener configurado un gráfico o un panel. La integración de Flink incluye uno o más paneles. Cualquier panel se instala de forma automática después de que configuras la integración y de que el agente de operaciones comienza a recopilar datos de métricas.
También puedes ver vistas previas estáticas de los paneles sin instalar la integración.
Para ver un panel instalado, haz lo siguiente:
-
En la consola de Google Cloud, ve a la página Paneles.
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- Selecciona la pestaña Lista de paneles y, luego, la categoría Integraciones.
- Haz clic en el nombre del panel que quiera ver.
Si configuraste una integración, pero el panel no se instaló, verifica que el agente de operaciones se esté ejecutando. Cuando no hay datos de métricas para un gráfico en el panel, la instalación del panel falla. Una vez que el agente de operaciones comienza a recopilar métricas, el panel se instalará por ti.
Para obtener una vista previa estática del panel, haz lo siguiente:
-
En la consola de Google Cloud, ve a la página Integraciones:
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- Haz clic en el filtro de la plataforma de implementación Compute Engine.
- Ubica la entrada de Flink y haz clic en Vista de detalles.
- Selecciona la pestaña Paneles para ver una vista previa estática. Si el panel está instalado, haz clic en Ver panel para navegar a él.
Para obtener más información de los paneles en Cloud Monitoring, consulta Paneles y gráficos.
Para obtener más información del uso de la página Integraciones, consulta Administra integraciones.
Instala políticas de alertas
Las políticas de alertas le indican a Cloud Monitoring que te notifique cuando ocurren condiciones especificadas. La integración de Flink incluye una o más políticas de alertas para que uses. Puedes ver e instalar estas políticas de alertas desde la página Integraciones en Monitoring.
Para ver las descripciones de las políticas de alertas disponibles y, luego, instalarlas, haz lo siguiente:
-
En la consola de Google Cloud, ve a la página Integraciones:
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
- Ubica la entrada de Flink y haz clic en Ver detalles.
- Selecciona la pestaña Alertas. En esta pestaña, se proporcionan descripciones de las políticas de alertas disponibles y una interfaz para instalarlas.
- Instala las políticas de alertas. Las políticas de alertas deben saber a dónde enviar notificaciones que la alerta se activó, por lo que requieren información de ti para la instalación.
Para instalar las políticas de alertas, haz lo siguiente:
- En la lista de políticas de alertas disponibles, elige las que deseas instalar.
En la sección Configura notificaciones, elige uno o más canales de notificaciones. Tienes la opción de inhabilitar el uso de los canales de notificación, pero si lo haces, las políticas de alertas se activarán de forma silenciosa. Puedes verificar su estado en Monitoring, pero no recibirás notificaciones.
Para obtener más información de los canales de notificaciones, consulta Administra canales de notificaciones.
- Haz clic en Crear políticas.
Para obtener más información de las políticas de alertas en Cloud Monitoring, consulta Introducción a las alertas.
Para obtener más información del uso de la página Integraciones, consulta Administra integraciones.
¿Qué sigue?
Para obtener una explicación sobre cómo usar Ansible para instalar el Agente de operaciones, configurar una aplicación de terceros y, luego, instalar un panel de muestra, consulta el video Instala el Agente de operaciones para solucionar problemas de apps de terceros.