Nesta página, descrevemos como usar a guia Detalhes da execução na interface de monitoramento do Dataflow.
Visão geral
Quando o Dataflow executa um job, ele converte as etapas do pipeline em estágios. Enquanto cada etapa representa uma transformação individual, um estágio representa uma única unidade de trabalho realizada pelo Dataflow. Para otimizar o pipeline, o Dataflow pode fundir várias etapas em um único estágio.
A guia Detalhes da execução na interface de monitoramento do Dataflow mostra informações sobre as fases de um job. Use a guia Detalhes da execução para resolver problemas de desempenho, como:
- Estágios lentos que causam gargalos de desempenho
- Estágios travados que não estão avançando
- VMs de worker que estão atrasadas em relação a outros workers
Ver detalhes da execução
Para conferir os detalhes da execução de um job, siga estas etapas:
No Google Cloud console, acesse a página Dataflow > Jobs.
Selecione um job.
Clique na guia Detalhes da execução.
Selecione uma das seguintes visualizações:
- Progresso da fase
- Fluxo de trabalho de estágio
- Progresso do worker (somente jobs em lote)
As seções a seguir descrevem cada uma dessas visualizações.
Visualização do progresso da fase
Com a visualização Progresso do estágio, é possível observar o progresso geral do job e comparar o progresso relativo entre os estágios. O layout da visualização Progresso do estágio é diferente entre jobs em lote e de streaming.
Progresso do estágio para jobs em lote
Para jobs em lote, a visualização Progresso do estágio mostra os estágios do job em ordem de horário de início. Para cada etapa, ele mostra os seguintes elementos:
- Uma barra que mostra os horários de parada e término.
- Um gráfico de linhas que mostra o progresso da etapa ao longo do tempo como uma porcentagem do trabalho total dela.
- O tempo total gasto no estágio.
Para filtrar as etapas exibidas, clique em Filtrar etapas. Para ver o caminho crítico, ative a opção Caminho crítico. O caminho crítico é a sequência de estágios que contribuem para o ambiente de execução geral do job. Por exemplo, ele exclui ramificações que terminaram antes do job geral e entradas que não atrasaram o processamento downstream.
O painel Informações do estágio mostra informações mais detalhadas sobre um estágio. Para conferir os detalhes de um estágio, clique na barra de progresso dele. O painel Informações da etapa mostra as seguintes informações sobre uma etapa:
- Status
- Progresso como uma porcentagem
- Horários de início e término
- As etapas do pipeline que essa fase abrange
- As etapas mais lentas por tempo decorrido
- Detalhes sobre retardatários
Se o painel não estiver visível, clique em
Alternar painel "Informações da fase".Progresso do estágio para jobs de streaming
Para jobs de streaming, a visualização Progresso do estágio tem duas visualizações de atualização de dados. Atualização de dados é a diferença entre o carimbo de data/hora de um elemento de dados e o momento em que ele é processado. Valores maiores significam que o pipeline está demorando mais para processar os dados de entrada.
A primeira visualização mostra a atualização de dados por estágio como um gráfico de linhas. Para ver a atualização de dados em um momento específico, mantenha o ponteiro sobre o gráfico. Para selecionar o período, use o seletor de horário ou clique e arraste o gráfico. Para filtrar os estágios exibidos, clique em Filtrar estágios.
O gráfico também destaca anomalias nos dados:
- Possível lentidão: a atualização de dados excede o 95o percentil da janela de tempo selecionada.
- Possibilidade de travamento: a atualização de dados excede o 99º percentil da janela de tempo selecionada.
A segunda visualização mostra os estágios como uma série de barras. Os estágios são organizados em ordem topológica. Os estágios sem descendentes são mostrados primeiro, seguidos pelos descendentes. O comprimento das barras representa a atualização de dados. Para ver os valores de atualização de dados em um ponto específico, clique no gráfico. As barras são atualizadas para mostrar a atualização de dados no horário selecionado.
A imagem a seguir mostra um job com quatro estágios. No carimbo de data/hora selecionado, a atualização dos dados varia de 9 a 13 segundos.
A próxima imagem mostra o mesmo job com um carimbo de data/hora diferente selecionado. Nesse ponto, a atualização dos dados para todas as etapas excede 4 minutos, indicando que o pipeline pode estar travado.
O painel Informações do estágio mostra informações mais detalhadas sobre um estágio. Para conferir os detalhes de um estágio, clique na barra de progresso dele. O painel Informações da etapa mostra as seguintes informações sobre uma etapa:
- Status
- Atraso no sistema: O tempo máximo que um item de dados espera por processamento
- Marca d"água de dados: O tempo estimado de conclusão da entrada de dados para esta etapa
- Detalhes sobre retardatários
- As etapas do pipeline que essa fase abrange
Se o painel não estiver visível, clique em
Alternar painel "Informações da fase".Fluxo de trabalho do estágio
A visualização Fluxo de trabalho do estágio mostra os estágios do job como um gráfico de fluxo de trabalho. Para ver os detalhes de uma etapa, clique na caixa dela.
Para jobs em lote, clique em Caminho crítico para ver apenas as fases que contribuem diretamente para o tempo de execução geral do job.
Progresso do worker
Para jobs em lote, a visualização Progresso do worker mostra os workers de um estágio específico. Esta visualização não está disponível para jobs de streaming. Para acessar essa visualização, selecione Progresso do worker e o estágio em Filtrar workers por estágio. Como alternativa, é possível ativar essa visualização na Progresso do estágio da seguinte forma:
- Na visualização Progresso do estágio, identifique o estágio que você quer ver.
- Mantenha o ponteiro do mouse sobre a barra desse estágio.
- No card Etapa, clique em Ver workers. A visualização Progresso do worker é mostrada com o estágio pré-selecionado.
Cada barra é mapeada para um item de trabalho programado para um worker. Um gráfico sparkline que rastreia a utilização da CPU em um worker está localizado com cada worker, facilitando a detecção de problemas de subutilização.
A seguir
- Saiba mais sobre como resolver problemas de jobs lentos ou travados.
- Leia sobre os diferentes componentes da Interface de usuário de monitoramento baseado na Web do Dataflow.