Panoramica dell'interfaccia utente di Job Builder

Il generatore di job è un'interfaccia utente visiva per creare ed eseguire pipeline Dataflow nella console Google Cloud, senza scrivere codice.

L'immagine seguente mostra un dettaglio dell'interfaccia utente di Job Builder. In questa immagine, l'utente sta creando una pipeline per leggere da Pub/Sub a BigQuery:

Uno screenshot dell'interfaccia utente di Job Builder

Panoramica

Lo strumento per la creazione dei job supporta la lettura e la scrittura dei seguenti tipi di dati:

  • Messaggi Pub/Sub
  • Dati della tabella BigQuery
  • File CSV, JSON e di testo in Cloud Storage
  • Dati delle tabelle PostgreSQL, MySQL, Oracle e SQL Server

Supporta le trasformazioni della pipeline, tra cui filtro, mappa, SQL, gruppo per, unione ed esplosione (appiattimento dell'array).

Con il job builder puoi:

  • Trasmetti in streaming da Pub/Sub a BigQuery con trasformazioni e aggregazione con finestre
  • Scrivere dati da Cloud Storage in BigQuery
  • Utilizzare la gestione degli errori per filtrare i dati errati (coda dei messaggi non recapitabili)
  • Manipolare o aggregare i dati utilizzando SQL con la trasformazione SQL
  • Aggiungere, modificare o eliminare campi dai dati con le trasformazioni di mappatura
  • Pianificare job batch ricorrenti

Il builder dei job può anche salvare le pipeline come file Apache Beam YAML e caricare le definizioni delle pipeline dai file Beam YAML. Utilizzando questa funzionalità, puoi progettare la pipeline nel Job Builder e poi archiviare il file YAML in Cloud Storage o in un repository di controllo del codice per riutilizzarlo. Le definizioni dei job YAML possono essere utilizzate anche per lanciare i job utilizzando la CLI gcloud.

Prendi in considerazione lo strumento per la creazione di job per i seguenti casi d'uso:

  • Vuoi creare una pipeline rapidamente senza scrivere codice.
  • Vuoi salvare una pipeline in YAML per riutilizzarla.
  • La pipeline può essere espressa utilizzando le origini, gli sink e le trasformazioni supportati.
  • Non esiste un modello fornito da Google che corrisponda al tuo caso d'uso.

Esegui un job di esempio

L'esempio di conteggio delle parole è una pipeline batch che legge il testo da Cloud Storage, tokenizza le righe di testo in parole singole ed esegue un conteggio della frequenza per ciascuna parola.

Se il bucket Cloud Storage si trova al di fuori del perimetro di servizio, crea una regola di uscita che consenta l'accesso al bucket.

Per eseguire la pipeline Conteggio parole:

  1. Vai alla pagina Job nella console Google Cloud.

    Vai a Job

  2. Fai clic su Crea job da modello.

  3. Nel riquadro laterale, fai clic su Generatore di job.

  4. Fai clic su Carica blueprint.

  5. Fai clic su Conteggio parole. Il generatore di job viene compilato con una rappresentazione grafica della pipeline.

    Per ogni passaggio della pipeline, lo strumento per la creazione di job mostra una scheda che specifica i parametri di configurazione per quel passaggio. Ad esempio, il primo passaggio legge i file di testo da Cloud Storage. La posizione dei dati di origine è precompilata nella casella Posizione del testo.

Uno screenshot del Job Builder

  1. Individua la scheda Nuovo sink. Potresti dover scorrere.

  2. Nella casella Posizione del testo, inserisci il prefisso del percorso della posizione Cloud Storage per i file di testo di output.

  3. Fai clic su Esegui job. Il generatore di job crea un job Dataflow e poi si sposta sul grafo dei job. Quando il job inizia, il grafico del job mostra una rappresentazione grafica della pipeline. Questa rappresentaz ione del grafo è simile a quella mostrata nel generatore di job. Man mano che viene eseguito ogni passaggio della pipeline, lo stato viene aggiornato nel grafico del job.

Il riquadro Informazioni job mostra lo stato complessivo del job. Se il job viene completato correttamente, il campo Stato job viene aggiornato in Succeeded.

Passaggi successivi