O job builder permite criar jobs personalizados de streaming e em lote do Dataflow. Também é possível salvar jobs do criador de jobs como arquivos YAML do Apache Beam para compartilhar e reutilizar.
Criar pipeline
Para criar um novo pipeline no criador de jobs, siga estas etapas:
Acesse a página Jobs no console do Google Cloud.
Clique em
Criar job no criador.Em Nome do job, insira um nome.
Selecione Lote ou Streaming.
Se você selecionar Streaming, selecione um modo de janela. Em seguida, insira um especificação para a janela, da seguinte forma:
- Janela fixa: insira um tamanho de janela em segundos.
- Janela deslizante: informe o tamanho e o período da janela em segundos.
- Janela de sessão: insira um intervalo de sessão, em segundos.
Para mais informações sobre janelamento, consulte Janelas e funções de janelamento.
Depois adicione origens, transformações e coletores ao pipeline, conforme descrito nas seções a seguir.
Adicionar uma origem ao pipeline
Um pipeline precisa ter pelo menos uma origem. Inicialmente, o criador de jobs é preenchida com uma origem vazia. Para configurar a origem, faça o seguinte:
Na caixa Nome da origem, digite um nome para a origem ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de origem, selecione o tipo de fonte de dados.
Dependendo do tipo de origem, forneça mais informações de configuração. Por exemplo, se você selecionar BigQuery, especifique a tabela de onde deve fazer a leitura.
Se você selecionar Pub/Sub, especifique um esquema de mensagem. Insira o nome e o tipo de dados de cada campo onde que você quer ler as mensagens do Pub/Sub. O pipeline descarta todos os campos que não estão especificados no esquema.
Opcional: para alguns tipos de origem, você pode clicar em Visualizar dados de origem para visualizar os dados de origem.
Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados
de várias fontes, adicione uma transformação SQL
ou Join
ao pipeline.
Adicionar uma transformação ao pipeline
Opcionalmente, adicione uma ou mais transformações ao pipeline. Use as transformações a seguir para manipular, agregar ou mesclar dados de origens e outras transformações:
Tipo de transformação | Descrição | Informações sobre a transformação YAML do Beam |
---|---|---|
Filtro (Python) | Filtrar registros com uma expressão Python. | |
Transformação SQL | Manipule registros ou una várias entradas com uma instrução SQL. | |
Participar | Junte várias entradas em campos iguais. | |
Campos do mapa (Python) | Adicione novos campos ou mapeie novamente registros inteiros com expressões e funções Python. | |
Campos do mapa (SQL) | Adicione ou mapeie campos de registro com expressões SQL. | |
Agrupar por |
Combine registros com funções como count() e
sum() .
|
|
Transformações YAML:
|
Use qualquer transformação do SDK do Beam YAML. Configuração da transformação YAML: informe os parâmetros de configuração da transformação YAML como um mapa YAML. Os pares de chave-valor são usados para preencher a seção de configuração da transformação do Beam YAML resultante. Para conferir os parâmetros de configuração aceitos para cada tipo de transformação, consulte a documentação de transformação do Beam YAML. Exemplos de parâmetros de configuração: Combinargroup_by: combine: Participartype: equalities: fields: |
|
Explodir | Dividir registros achatando os campos de matriz. |
Para adicionar uma transformação:
Clique em Adicionar uma transformação.
Na caixa Transformação, insira um nome para a transformação ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de transformação, selecione o tipo de transformação.
Dependendo do tipo de transformação, forneça informações adicionais de configuração. Por exemplo, se você selecionar Filtro (Python), digite uma expressão em Python para ser usada como filtro.
Selecione a etapa de entrada para a transformação. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.
Adicionar um coletor ao pipeline
Um pipeline precisa ter pelo menos um coletor. Inicialmente, o criador de jobs é preenchido com um coletor vazio. Para configurar o coletor, faça o seguinte:
Na caixa Nome do coletor, insira um nome para o coletor ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.
Na lista Tipo de coletor, selecione o tipo de coletor.
Dependendo do tipo de coletor, forneça mais informações de configuração. Por exemplo, se você selecionar o coletor do BigQuery, selecione a tabela do BigQuery em que escreverá.
Selecione a etapa de entrada para o coletor. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.
Para adicionar outro coletor ao pipeline, clique em Adicionar um coletor.
Executar o pipeline
Para executar um pipeline a partir do criador de jobs, siga estas etapas:
Opcional: defina as opções de job do Dataflow. Para expandir a seção de opções do Dataflow, clique na
seta de expansão.Cliquem em Executar job. O criador de jobs navega até o gráfico do job enviado. Você pode usar o gráfico do job para monitorar o status dele.
Validar o pipeline antes do lançamento
Para pipelines com configuração complexa, como filtros Python e expressões SQL, pode ser útil verificar se há erros de sintaxe na configuração do pipeline antes de iniciar. Para validar a sintaxe do pipeline, siga estas etapas:
- Clique em Validar para abrir o Cloud Shell e iniciar o serviço de validação.
- Clique em Iniciar validação.
- Se um erro for encontrado durante a validação, um ponto de exclamação vermelho vai aparecer.
- Corrija os erros detectados e clique em Validar para verificar as correções. Se nenhum erro for encontrado, uma marca de seleção verde vai aparecer.
Executar com a CLI gcloud
Também é possível executar pipelines YAML do Beam usando a CLI gcloud. Para executar um pipeline do criador de jobs com a CLI gcloud:
Clique em Salvar YAML para abrir a janela Salvar YAML.
Realize uma das seguintes ações:
- Para salvar no Cloud Storage, insira um caminho do Cloud Storage e Clique em Salvar.
- Para fazer o download de um arquivo local, clique em Fazer o download.
Execute o seguinte comando no shell ou terminal:
gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
Substitua
YAML_FILE_PATH
pelo caminho do arquivo YAML, localmente ou no Cloud Storage.
A seguir
- Usar a interface de monitoramento de jobs do Dataflow.
- Salve e carregue definições de jobs YAML no criador de jobs.
- Saiba mais sobre o YAML do Beam.