Usar o painel de monitoramento

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Esta página descreve como acessar e usar o painel de monitoramento de um ambiente do Cloud Composer.

Acessar o painel de monitoramento

O painel de monitoramento contém métricas e gráficos para monitorar tendências nas execuções do DAG no seu ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.

Para acessar o painel de monitoramento do seu ambiente:

  1. No console do Google Cloud, acesse a página Ambientes.

    Acessar "Ambientes"

  2. Na lista de ambientes, clique no nome do ambiente. A página Detalhes do ambiente é aberta.

  3. Acesse a guia Monitoramento.

Configurar alertas para métricas

É possível configurar alertas para uma métrica clicando no ícone de sino no canto do card de monitoramento.

Criar um alerta para uma métrica exibida no painel de monitoramento
Figura 1. Criar um alerta para uma métrica exibida no painel de monitoramento (clique para ampliar)

Conferir uma métrica no Monitoring

Confira mais detalhes de uma métrica no Monitoring.

Para acessar o painel de monitoramento do Cloud Composer, clique em clique nos três pontos no canto superior direito de um card de métricas e selecione Ver no Metrics Explorer

Conferir uma métrica no painel de monitoramento do Metrics Explorer
Figura 2. Visualizar uma métrica do painel de monitoramento no Metrics Explorer (clique para ampliar)

Descrições das métricas

Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. As métricas exibidas em um painel de monitoramento para um ambiente específico apenas rastreiam as execuções do DAG, os componentes do Airflow e os detalhes do ambiente para esse ambiente. Por exemplo, se você tiver dois ambientes, o painel não vai agregar métricas dos dois.

Visão geral do ambiente

Métrica de Ambiente Descrição
Integridade do ambiente (DAG de monitoramento do Airflow) Uma linha do tempo que mostra a integridade da implantação do Composer. O status verde reflete apenas o status da implantação do Composer. Isso não significa que todos os componentes do Airflow estejam operacionais e que os DAGs possam ser executados.
Sinal de funcionamento do programador Uma linha do tempo mostrando o sinal de funcionamento do agendador do Airflow. Verifique se há áreas vermelhas para identificar problemas do agendador do Airflow. Se o ambiente tiver mais de um programador, o status do heartbeat será íntegro, desde que pelo menos um deles esteja respondendo.
Integridade do servidor da Web Uma linha do tempo que mostra o status do servidor da Web do Airflow. Esse status é gerado com base nos códigos de status HTTP retornados pelo servidor da Web do Airflow.
Integridade do banco de dados Uma linha do tempo que mostra o status da conexão com a instância do Cloud SQL que hospeda o banco de dados do Airflow.
Operações do ambiente Uma linha do tempo que mostra operações que modificam o ambiente, como atualizações de configuração ou carregamento de snapshots do ambiente.
Operações de manutenção Uma linha do tempo que mostra os períodos em que as operações de manutenção são realizadas no cluster do ambiente.
Dependências do ambiente Uma linha do tempo mostrando o status da acessibilidade e das verificações de permissões para a operação do ambiente.

Estatísticas do DAG

Métrica de Ambiente Descrição
Execuções DAG com sucesso O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o período selecionado. Se o número de execuções de DAGs bem-sucedidas cair abaixo dos níveis esperados, isso pode indicar falhas (consulte Execuções de DAG com falha) ou um problema de programação.
Execuções de DAG com falha Tarefas com falha O número total de execuções com falha de todos os DAGs no ambiente durante o período selecionado. O número total de tarefas que falharam no ambiente durante o período selecionado. As tarefas com falha nem sempre causam falha em uma execução do DAG, mas podem ser um sinal útil para solucionar erros do DAG.
Execuções de DAG concluídas O número de sucessos e falhas do DAG para intervalos no intervalo de tempo selecionado. Isso pode ajudar a identificar problemas temporários com execuções do DAG e correlacioná-los a outros eventos, como remoções de pods de worker.
Tarefas concluídas O número de tarefas concluídas no ambiente com uma decomposição das tarefas bem-sucedidas e com falha.
Duração média da execução do DAG A duração média de execuções de DAG. Esse gráfico pode ajudar a identificar problemas de desempenho e tendências na duração do DAG.
Tarefas do Airflow Número de tarefas nos estados em execução, na fila ou adiadas em determinado momento. As tarefas do Airflow estão em uma fila no Airflow. Elas podem ir para o Celery ou para a fila de agentes do Executor do Kubernetes. As tarefas em fila do Celery são instâncias de tarefas colocadas na fila de agentes do Celery.
Tarefas zumbi excluídas O número de tarefas zumbi eliminadas em uma pequena janela de tempo. Tarefas zumbis geralmente são causadas pelo encerramento externo dos processos do Airflow. O agendador do Airflow elimina tarefas zumbi periodicamente, o que é refletido neste gráfico.
Tamanho do repositório do DAG O número de DAGs implantados no bucket do seu ambiente e processados pelo Airflow em um determinado momento. Ele pode ser útil ao analisar os gargalos de desempenho. Por exemplo, um número maior de implantações do DAG pode prejudicar o desempenho devido ao excesso de carga.
Erros do processador de DAG O número de erros e tempos limite por segundo encontrados no processamento de arquivos DAG. O valor indica a frequência de erros relatados pelo processador de DAG e é diferente do número de DAGs com falha.
Tempo total de análise de todos os DAGs Um gráfico que mostra o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento. Consulte Diferença entre o tempo de análise e o tempo de execução do DAG para mais informações.

Estatísticas do programador

Métrica de Ambiente Descrição
Sinal de funcionamento do programador Consulte Visão geral do ambiente.
Uso total de CPU do programador O uso total de núcleos de vCPU por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total de memória do programador O uso total da memória por contêineres em execução em todos os pods de programador do Airflow e o limite combinado de vCPU para todos os programadores.
Uso total do disco do programador O uso total de espaço em disco pelos contêineres em execução em todos os pods de programador do Airflow e o limite de espaço em disco combinado para todos os programadores.
Reinicializações de contêineres do programador O número total de reinicializações para contêineres individuais do programador.
Remoção de pods do programador Número de remoções de pods do programador do Airflow. A remoção de pods pode acontecer quando um determinado pod no cluster do ambiente atinge os limites de recursos.

Estatísticas do worker

Métrica de Ambiente Descrição
Uso total de CPU do worker O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total da memória do worker O uso total da memória por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de vCPU para todos os workers.
Uso total do disco do worker O uso total do espaço em disco por contêineres em execução em todos os pods de worker do Airflow e o limite combinado de espaço em disco para todos os workers.
Workers ativos O número atual de workers no seu ambiente. No Cloud Composer 2, seu ambiente escalona automaticamente o número de workers ativos.
Reinicializações do contêiner do worker O número total de reinicializações para contêineres de workers individuais.
Remoção de pod de workers Número de remoções de pods de workers do Airflow. A remoção de pods pode acontecer quando um determinado pod no cluster do ambiente atinge os limites de recursos. Se um pod de worker do Airflow for removido, todas as instâncias de tarefas em execução nele serão interrompidas e, posteriormente, marcadas como com falha pelo Airflow.
Tarefas do Airflow Consulte Visão geral do ambiente.
Tempos limite de publicação do agente do Celery O número total de erros AirflowTaskTimeout gerados ao publicar tarefas nos agentes do Celery. Essa métrica corresponde a celery.task_timeout_error do Airflow.
Falha ao executar o Celery O número total de códigos de saída diferentes de zero das tarefas do Celery. Essa métrica corresponde à celery.execute_command.failure do Airflow.
Tarefas encerradas pelo sistema O número de tarefas do fluxo de trabalho em que o executor foi encerrado com um SIGKILL (por exemplo, devido a problemas na memória ou no sinal de funcionamento do worker).

Estatísticas do acionador

Métrica de Ambiente Descrição
Tarefas adiadas O número de tarefas que estão no estado adiado em um determinado momento. Para mais informações sobre tarefas adiadas, consulte Usar operadores adiáveis.
Acionadores concluídos O número de acionadores concluídos em todos os pods de acionadores.
Como executar acionadores O número de acionadores em execução por instância de acionadores. Este gráfico mostra linhas separadas para cada acionador.
Acionadores de bloqueio Número de acionadores que bloquearam a linha de execução principal (provavelmente por não serem totalmente assíncronos).
Uso total da CPU dos gatilhos O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de vCPU para todos os acionadores.
Uso total da memória dos gatilhos O uso total da memória por contêineres em execução em todos os pods de engatilhador do Airflow e o limite combinado de vCPU para todos os engatilhadores.
Uso total do disco dos gatilhos O uso total do espaço em disco por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de espaço em disco para todos os acionadores.
Acionadores ativos O número de instâncias de acionadores ativas.
Reinicializações do contêiner do engatilhador O número de reinicializações do contêiner do engatilhador.

Estatísticas do servidor da Web

Métrica de Ambiente Descrição
Integridade do servidor da Web Consulte Visão geral do ambiente.
Uso de CPU do servidor da Web O uso total de núcleos de vCPU pelos contêineres em execução em todos os pods do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso da memória do servidor da Web O uso total de memória por contêineres em execução em todos os pods do servidor da Web do Airflow e o limite combinado de vCPU para todos os servidores da Web.
Uso total do disco do servidor da Web O uso total de espaço em disco pelos contêineres em execução em todos os pods do servidor da Web do Airflow e o limite de espaço em disco combinado para todos os servidores da Web.

Estatísticas do banco de dados SQL

Métrica de Ambiente Descrição
Integridade do banco de dados Consulte Visão geral do ambiente.
Uso de CPU do banco de dados O uso de núcleos de CPU pelas instâncias do banco de dados do Cloud SQL do seu ambiente.
Uso da memória do banco de dados O uso total de memória pelas instâncias de banco de dados do Cloud SQL do seu ambiente.
Uso do disco do banco de dados O uso total do espaço em disco pelas instâncias de banco de dados do Cloud SQL do seu ambiente. Essa métrica se aplica à própria instância do banco de dados do Cloud SQL. Portanto, ela não diminui quando o tamanho do banco de dados do Airflow é reduzido. Para uma métrica que mostra o tamanho do conteúdo do banco de dados do Airflow, consulte "Tamanho do banco de dados de metadados do Airflow".
Tamanho do banco de dados de metadados do Airflow Tamanho do banco de dados de metadados do Airflow. Essa métrica se aplica ao componente do Airflow do seu ambiente e mostra a quantidade de espaço em disco ocupado pelo banco de dados de metadados do Airflow na instância de banco de dados do Cloud SQL. Essa métrica diminui quando o tamanho do banco de dados de metadados do Airflow é reduzido (por exemplo, após a manutenção do banco de dados do Airflow) e determina se é possível criar snapshots e fazer upgrade de ambientes. Essa métrica é diferente da métrica de uso do disco do banco de dados, que mostra a quantidade de espaço em disco usada pelas instâncias do banco de dados do Cloud SQL.
Conexões de banco de dados O número total de conexões ativas com o banco de dados e o limite total de conexões.

Diferença entre o tempo de análise do DAG e o tempo de execução do DAG

O painel de monitoramento de um ambiente exibe o tempo total necessário para analisar todos os DAGs no ambiente do Cloud Composer e o tempo médio necessário para executar um DAG.

A análise de um DAG e a programação de tarefas de um DAG para execução são duas operações separadas realizadas pelo programador do Airflow.

Análise de DAG e programação de tarefas feita pelo programador do Airflow
Figura 3. Análise de DAG e programação de tarefas feita pelo programador do Airflow (clique para ampliar)

O tempo de análise do DAG é o tempo que leva para o Scheduler do Airflow ler um arquivo DAG e analisá-lo.

Antes do programador do Airflow, é possível programar qualquer tarefa de um DAG. Ele precisa analisar o arquivo DAG para descobrir a estrutura do DAG e as tarefas definidas. Depois que o arquivo DAG é analisado, o programador pode começar a programar tarefas do DAG.

O tempo de execução do DAG é a soma de todos os tempos de execução de tarefas de um DAG.

Para saber quanto tempo leva para executar uma tarefa específica do Airflow de um DAG, em interface da Web do Airflow, selecione um DAG e abra o Guia Duração da tarefa. Esta guia mostra os tempos de execução da tarefa para o número especificado de últimas execuções do DAG.