Visão geral da interface do builder de jobs

A criador de jobs é uma IU visual para criar e executar pipelines do Dataflow no console do Google Cloud, sem escrever códigos.

A imagem a seguir mostra um detalhe da interface do job builder. Nesta imagem, o usuário está criando um pipeline para ler do Pub/Sub para o BigQuery:

Captura de tela da interface do job builder

Visão geral

O criador de jobs aceita a leitura e gravação dos seguintes tipos de dados:

  • Mensagens de Pub/Sub
  • Dados da tabela do BigQuery
  • Arquivos CSV, JSON e arquivos de texto no Cloud Storage
  • Dados de tabelas PostgreSQL, MySQL, Oracle e SQL Server

Ele é compatível com transformações de pipeline, incluindo filtrar, mapear, SQL, agrupar por, mesclar e explodir (achatamento da matriz).

Com o Job Builder, você pode:

  • Fazer streaming do Pub/Sub para o BigQuery com transformações e agregação com janelas
  • Gravar dados do Cloud Storage no BigQuery
  • Usar o tratamento de erros para filtrar dados incorretos (fila de mensagens inativas)
  • Manipular ou agregar dados usando SQL com a transformação SQL
  • Adicionar, modificar ou excluir campos de dados com transformações de mapeamento
  • Programar jobs em lote recorrentes

O criador de jobs também pode salvar pipelines como arquivos YAML do Apache Beam e carregar definições de pipeline de arquivos YAML do Beam. Ao usar esse recurso, é possível projetar o pipeline no criador de jobs e armazenar o arquivo YAML no Cloud Storage ou em um repositório de controle de origem para reutilização. As definições de jobs YAML também podem ser usadas para iniciar jobs usando a CLI gcloud.

Considere o criador de jobs para os seguintes casos de uso:

  • Você quer criar um pipeline rapidamente sem escrever código.
  • Você quer salvar um pipeline em YAML para reutilização.
  • O pipeline pode ser expresso usando as origens, os coletores e as transformações compatíveis.
  • Não há um modelo fornecido pelo Google que corresponda ao seu caso de uso.

Executar um job de exemplo

O exemplo de contagem de palavras é um pipeline em lote que lê textos do Cloud Storage, transforma linhas de texto em palavras individuais e executa uma contagem de frequência em cada palavra.

Se o bucket do Cloud Storage estiver fora do perímetro do serviço, crie uma regra de saída que permita acesso ao bucket.

Para executar o pipeline de contagem de palavras, siga estas etapas:

  1. Acesse a página Jobs no console do Google Cloud.

    Acessar "Jobs"

  2. Clique em Criar job a partir do modelo.

  3. No painel lateral, clique em Criador de jobs.

  4. Clique em Carregar modelos.

  5. Clique em Contagem de palavras. O criador de jobs é preenchido com uma representação gráfica do pipeline.

    Para cada etapa do pipeline, o criador de jobs exibe um cartão que especifica os parâmetros de configuração correspondentes para essa etapa. Por exemplo, a primeira etapa lê arquivos de texto do Cloud Storage. O local dos dados de origem é preenchido automaticamente na caixa Local do texto.

Captura de tela do job builder

  1. Localize o cartão intitulado Novo coletor. Talvez seja necessário rolar a tela.

  2. No campo Local do texto, insira o prefixo do caminho do local do Cloud Storage para os arquivos de texto de saída.

  3. Cliquem em Executar job. O criador de jobs cria um job do Dataflow e depois navega até o gráfico do job. Quando o job é iniciado, o gráfico do job mostra uma representação gráfica do pipeline. Essa representação gráfica é semelhante à mostrada no criador de jobs. À medida que cada etapa do pipeline é executada, o status é atualizado no gráfico do job.

O painel Informações do job mostra o status geral dele. Se o job for concluído com sucesso, o campo Status do job será atualizado para Succeeded.

A seguir