Esta página foi traduzida pela API Cloud Translation.

Criar um job personalizado com o Job Builder

Com ele, é possível criar jobs personalizados de streaming e em lote do Dataflow. Também é possível salvar jobs do criador de jobs como arquivos YAML do Apache Beam para compartilhar e reutilizar.

Criar pipeline

Para criar um novo pipeline no criador de jobs, siga estas etapas:

Acesse a página Jobs no console Google Cloud .

Acessar "Jobs"
Clique em Criar job usando o criador.
Em Nome do job, insira um nome.
Selecione Lote ou Streaming.
Se você selecionar Streaming, selecione um modo de janela. Em seguida, insira um especificação para a janela, da seguinte forma:
- Janela fixa: insira um tamanho de janela em segundos.
- Janela deslizante: informe o tamanho e o período da janela em segundos.
- Janela de sessão: insira um intervalo de sessão, em segundos.
Para mais informações sobre janelamento, consulte Janelas e funções de janelamento.

Depois adicione origens, transformações e coletores ao pipeline, conforme descrito nas seções a seguir.

Adicionar uma origem ao pipeline

Um pipeline precisa ter pelo menos uma origem. Inicialmente, o criador de jobs é preenchida com uma origem vazia. Para configurar a origem, faça o seguinte:

Na caixa Nome da origem, digite um nome para a origem ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de origem, selecione o tipo de fonte de dados.
Dependendo do tipo de origem, forneça mais informações de configuração. Por exemplo, se você selecionar BigQuery, especifique a tabela de onde deve fazer a leitura.

Se você selecionar Pub/Sub, especifique um esquema de mensagem. Insira o nome e o tipo de dados de cada campo onde que você quer ler as mensagens do Pub/Sub. O pipeline descarta todos os campos que não estão especificados no esquema.
Opcional: para alguns tipos de origem, você pode clicar em Visualizar dados de origem para visualizar os dados de origem.

Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados de várias fontes, adicione uma transformação SQL ou Join ao pipeline.

Adicionar uma transformação ao pipeline

Opcionalmente, adicione uma ou mais transformações ao pipeline. É possível usar as seguintes transformações para manipular, agregar ou mesclar dados de fontes e outras transformações:

Tipo de transformação	Descrição	Informações sobre a transformação YAML do Beam
Filtro (Python)	Filtre registros com uma expressão Python.	Filtragem (Python) Filtro
Transformação SQL	Manipule registros ou combine várias entradas com uma instrução SQL.	Transformações nomeadas Sql
Campos do mapa (Python)	Adicionar novos campos ou mapear novamente registros inteiros com expressões e funções Python.	Funções de mapeamento MapToFields
Campos do mapa (SQL)	Adicione ou mapeie campos de registro com expressões SQL.	Funções de mapeamento MapToFields
Transformações YAML: AssertEqual AssignTimestamps Combinar Explodir Filtro Flatten Participar LogForTesting MLTransform MapToFields PyTransform WindowInfo	Use qualquer transformação do SDK do Beam YAML. Configuração da transformação YAML: informe os parâmetros de configuração da transformação YAML como um mapa YAML. Os pares de chave-valor são usados para preencher a seção de configuração da transformação do Beam YAML resultante. Para conferir os parâmetros de configuração aceitos para cada tipo de transformação, consulte a documentação de transformação do Beam YAML. Exemplos de parâmetros de configuração: Combinar group_by: combine: Participar type: equalities: fields:	Índice de transformação YAML do Beam
Registro	Registra registros nos registros do worker do job.	LogForTesting
Agrupar por	Combine registros com funções como `count()` e `sum()`.	Group By
Participar	Mesclar diversas entradas em campos iguais.	Junção de YAML do Beam Participar
Explodir	Dividir registros achatando os campos de matriz.	Flatmap Explosão

Para adicionar uma transformação:

Clique em Adicionar uma transformação.
Na caixa Transformação, insira um nome para a transformação ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de transformação, selecione o tipo de transformação.
Dependendo do tipo de transformação, forneça informações adicionais de configuração. Por exemplo, se você selecionar Filtro (Python), digite uma expressão em Python para ser usada como filtro.
Selecione a etapa de entrada para a transformação. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.

Observação: as transformações SQL e Join podem ter várias etapas de entrada.

Adicionar um coletor ao pipeline

Um pipeline precisa ter pelo menos um coletor. Inicialmente, o criador de jobs é preenchido com um coletor vazio. Para configurar o coletor, faça o seguinte:

Na caixa Nome do coletor, insira um nome para o coletor ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de coletor, selecione o tipo de coletor.
Dependendo do tipo de coletor, forneça mais informações de configuração. Por exemplo, se você selecionar o coletor do BigQuery, selecione a tabela do BigQuery em que escreverá.
Selecione a etapa de entrada para o coletor. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.
Para adicionar outro coletor ao pipeline, clique em Adicionar um coletor.

Executar o pipeline

Para executar um pipeline a partir do criador de jobs, siga estas etapas:

Opcional: defina as opções de job do Dataflow. Para expandir a seção de opções do Dataflow, clique na seta de expansão.
Cliquem em Executar job. O criador de jobs navega até o gráfico do job enviado. Você pode usar o gráfico do job para monitorar o status dele.

Validar o pipeline antes de iniciar

Para pipelines com configuração complexa, como filtros do Python e expressões SQL, é útil verificar a configuração do pipeline em busca de erros de sintaxe antes de iniciar. Para validar a sintaxe do pipeline, siga estas etapas:

Clique em Validar para abrir o Cloud Shell e iniciar o serviço de validação.
Clique em Iniciar validação.
Se um erro for encontrado durante a validação, um ponto de exclamação vermelho vai aparecer.
Corrija os erros detectados e verifique as correções clicando em Validar. Se nenhum erro for encontrado, uma marca de seleção verde vai aparecer.

Executar com a CLI gcloud

Também é possível executar pipelines do Beam YAML usando a CLI gcloud. Para executar um pipeline do criador de jobs com a CLI gcloud:

Clique em Salvar YAML para abrir a janela Salvar YAML.
Realize uma das seguintes ações:
- Para salvar no Cloud Storage, insira um caminho do Cloud Storage e Clique em Salvar.
- Para fazer o download de um arquivo local, clique em Fazer o download.
Execute o seguinte comando no shell ou terminal:
```
  gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
```
Substitua YAML_FILE_PATH pelo caminho do arquivo YAML, localmente ou no Cloud Storage.

A seguir

Usar a interface de monitoramento de jobs do Dataflow.
Salve e carregue definições de jobs YAML no criador de jobs.
Saiba mais sobre o YAML do Beam.