Detalhes da execução

Esta página descreve como usar a guia Detalhes da execução na interface de monitoramento do Dataflow.

Visão geral

Quando o Dataflow executa um job, ele converte as etapas do pipeline em etapas. Enquanto cada etapa representa uma transformação individual, uma etapa representa uma única unidade de trabalho realizada pelo Dataflow. Para otimizar o pipeline, o Dataflow pode fundir várias etapas em um estágio.

A guia Detalhes da execução na interface de monitoramento do Dataflow mostra informações sobre as fases de um job. Use a guia Detalhes da execução para resolver problemas de desempenho, como:

  • Fases lentas que causam gargalos de desempenho
  • Fases que não avançam
  • VMs de worker que estão atrasadas em relação a outros workers

Conferir detalhes da execução

Para conferir os detalhes de execução de um job, siga estas etapas:

  1. No console do Google Cloud, acesse a página Dataflow > Jobs.

    Acessar "Jobs"

  2. Selecione um job.

  3. Clique na guia Detalhes da execução.

  4. Selecione uma das seguintes visualizações:

    • Progresso da fase
    • Fluxo de trabalho de estágio
    • Progresso do worker (somente jobs em lote)

As seções a seguir descrevem cada uma dessas visualizações.

Visualização do progresso da fase

A visualização Progresso do estágio permite observar o progresso geral do job e comparar o progresso relativo entre os estágios. O layout da visualização Progresso do estágio é diferente entre jobs em lote e de streaming.

Progresso do estágio para jobs em lote

Para jobs em lote, a visualização Progresso do estágio mostra os estágios do job na ordem dos horários de início. Para cada fase, são exibidos os seguintes elementos:

  • Uma barra que mostra os horários de parada e término.
  • Um gráfico de linhas que mostra o progresso do estágio ao longo do tempo como uma porcentagem do trabalho total do estágio.
  • O tempo total gasto na etapa.

Exemplo da visualização de progresso do estágio para um job em lote.

Para filtrar as etapas exibidas, clique em Filtrar etapas. Para conferir o caminho crítico, ative a opção Caminho crítico. O caminho crítico é a sequência de etapas que contribuem para o ambiente de execução geral do job. Por exemplo, ele exclui ramificações que foram concluídas antes do job geral e entradas que não atrasaram o processamento downstream.

O painel Stage Info mostra informações mais detalhadas sobre um estágio. Para conferir os detalhes de uma etapa, clique na barra de progresso dela. O painel Stage Info mostra as seguintes informações sobre um estágio:

  • Status
  • Progresso como uma porcentagem
  • Horários de início e término
  • As etapas do pipeline que este estágio abrange
  • As etapas mais lentas por tempo decorrido
  • Detalhes sobre os retardatários

Se o painel não estiver visível, clique em Alternar painel "Stage info".

Progresso do estágio para jobs de streaming

Para jobs de streaming, a visualização Progresso do estágio tem duas visualizações de atualização de dados. A atualização de dados é a diferença entre o carimbo de data/hora de um elemento de dados e o horário em que o elemento é processado. Valores maiores significam que o pipeline está demorando mais para processar os dados de entrada.

A primeira visualização mostra a atualização de dados por estágio como um gráfico de linhas. Para conferir a atualização dos dados em um momento específico, mantenha o ponteiro sobre o gráfico. Para selecionar o período, use o seletor de data ou clique no gráfico e arraste para selecionar o período. Para filtrar as etapas exibidas, clique em Filtrar etapas.

O gráfico também destaca anomalias nos dados:

  • Possível lentidão: a atualização de dados excede o percentil 95 da janela de tempo selecionada.
  • Possível travamento: a atualização de dados excede o 99o percentil da janela de tempo selecionada.

A segunda visualização mostra os estágios como uma série de barras. As fases são organizadas em ordem topológica. As etapas sem descendentes são mostradas primeiro, seguidas pelos descendentes. O comprimento das barras representa a atualização dos dados. Para conferir os valores de atualização dos dados em um ponto específico, clique no gráfico. As barras são atualizadas para mostrar a atualização dos dados no horário selecionado.

A imagem a seguir mostra um job com quatro estágios. Na marcação de tempo selecionada, a atualidade dos dados varia de 9 a 13 segundos.

Visualização de progresso do estágio de um job de streaming, mostrando a atualização de dados entre 8 e 13 segundos.

A próxima imagem mostra o mesmo job com um carimbo de data/hora diferente selecionado. Nesse ponto, a atualização dos dados em todos os estágios excede 4 minutos, indicando que o pipeline pode estar travado.

Visualização de progresso do estágio de um job de streaming, mostrando a atualização de dados superior a 4 minutos.

O painel Stage Info mostra informações mais detalhadas sobre um estágio. Para conferir os detalhes de uma etapa, clique na barra de progresso dela. O painel Stage Info mostra as seguintes informações sobre um estágio:

  • Status
  • Atraso do sistema: o tempo máximo que um item de dados ficou aguardando o processamento.
  • Marca d'água de dados: o tempo estimado de conclusão da entrada de dados para esta etapa.
  • Detalhes sobre os retardatários
  • As etapas do pipeline que este estágio abrange

Se o painel não estiver visível, clique em Alternar painel "Stage info".

Fluxo de trabalho do estágio

A visualização Fluxo de trabalho do estágio mostra os estágios do job como um gráfico de fluxo de trabalho. Para conferir os detalhes de uma etapa, clique na caixa dela.

Visualização do fluxo de trabalho do estágio, mostrando a hierarquia dos estágios de execução de um job.

Para jobs em lote, clique em Caminho crítico para ver apenas os estágios que contribuem diretamente para o tempo de execução geral do job.

Progresso do worker

Para jobs em lote, a visualização Progresso do worker mostra os workers de uma etapa específica. Esta visualização não está disponível para jobs de streaming. Para acessar essa visualização, selecione Progresso do worker e selecione a etapa em Filtrar workers por etapa. Como alternativa, ative essa visualização na página Progresso da fase da seguinte maneira:

  1. Na visualização Progresso do estágio, identifique o estágio que você quer consultar.
  2. Mantenha o ponteiro do mouse sobre a barra desse estágio.
  3. No card Etapa, clique em Ver workers. A visualização Progresso do worker é mostrada com a etapa pré-selecionada.

Cada barra é mapeada para um item de trabalho programado para um worker. Um gráfico sparkline que rastreia a utilização da CPU em um worker está localizado com cada worker, facilitando a detecção de problemas de subutilização.

Visualização de progresso do worker. Os workers têm barras e minigráficos que correspondem à programação do item de trabalho e à utilização da CPU.

A seguir