Crea ed esegui un flusso di lavoro in Dataform
Questa guida rapida illustra la seguente procedura in Dataform per creare un workflow ed eseguirlo in BigQuery:
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Crea e gestisci repository, spazi di lavoro e chiamate di workflow:
Amministratore Dataform (
roles/dataform.admin
) -
Esegui i flussi di lavoro in BigQuery:
-
Editor dati BigQuery (
roles/bigquery.dataEditor
) -
Utente job BigQuery (
roles/bigquery.jobUser
)
-
Editor dati BigQuery (
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per creare ed eseguire un workflow in Dataform, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto che ospiterà il repository Dataform:
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Crea un repository Dataform
Nella console Google Cloud , vai alla pagina Dataform.
Fai clic su
Crea repository.Nella pagina Crea repository:
Nel campo ID repository, inserisci
quickstart-repository
.Nell'elenco Regione, seleziona
europe-west4
.Fai clic su Crea.
Crea e inizializza un'area di lavoro di sviluppo Dataform
Nella console Google Cloud , vai alla pagina Dataform.
Fai clic su
quickstart-repository
.Fai clic su
Crea area di lavoro di sviluppo.Nella finestra Crea area di lavoro di sviluppo:
Nel campo ID area di lavoro, inserisci
quickstart-workspace
.Fai clic su Crea.
Viene visualizzata la pagina del workspace di sviluppo.
Fai clic su Inizializza area di lavoro.
Crea una vista
Nelle sezioni seguenti definirai una vista che utilizzerai in seguito come origine dati per una tabella.
Crea un file SQLX per definire una vista
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro.Fai clic su Crea file.
Nel riquadro Crea nuovo file:
Nel campo Aggiungi un percorso del file, inserisci
definitions/quickstart-source.sqlx
.Fai clic su Crea file.
Definire una visualizzazione
Nel riquadro File, espandi la cartella delle definizioni.
Fai clic su
definitions/quickstart-source.sqlx
.Nel file, inserisci il seguente snippet di codice:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Fai clic su Formato.
Creare una tabella
Nelle sezioni seguenti, devi definire il tipo di tabella in un file SQLX, quindi scrivere un'istruzione SELECT
per definire la struttura della tabella all'interno dello stesso file.
Crea un file SQLX per definire una tabella
Nel riquadro File, accanto a
definitions/
, fai clic sul menu Altro e poi seleziona Crea file.Nel campo Aggiungi un percorso del file, inserisci
definitions/quickstart-table.sqlx
.Fai clic su Crea file.
Definisci il tipo, la struttura e le dipendenze della tabella
Nel riquadro File, espandi la directory
definitions/
.Seleziona
quickstart-table.sqlx
, quindi inserisci il seguente tipo di tabella e l'istruzioneSELECT
:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Fai clic su Formato.
Dopo aver definito il tipo di tabella, Dataform genera un errore di convalida delle query
perché quickstart-source
non esiste ancora in BigQuery. Questo errore viene risolto quando esegui il flusso di lavoro più avanti in questo tutorial.
Esegui il flusso di lavoro in BigQuery
Nella console Google Cloud , vai alla pagina Dataform.
Nella pagina
quickstart-workspace
, fai clic su Avvia esecuzione.Fai clic su Tutte le azioni.
Fai clic su Avvia esecuzione.
Nella finestra di dialogo che si apre, fai clic su Consenti per autorizzare BigQuery Pipelines ad accedere al tuo Account Google.
Dataform utilizza le impostazioni predefinite del repository per creare i contenuti del flusso di lavoro in un set di dati BigQuery chiamato
dataform
.
Visualizza i log di esecuzione in Dataform
Nella pagina
quickstart-repository
, fai clic su Log di esecuzione del flusso di lavoro.Per visualizzare i dettagli dell'esecuzione, fai clic sull'ultima esecuzione.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il set di dati creato in BigQuery
Per evitare che ti vengano addebitati costi per gli asset BigQuery, elimina il set di dati denominato dataform
.
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e seleziona
dataform
.Fai clic sul menu
Azioni e seleziona Elimina.Nella finestra di dialogo Elimina set di dati, inserisci
delete
nel campo e fai clic su Elimina.
Elimina l'area di lavoro di sviluppo Dataform
La creazione dell'area di lavoro di sviluppo Dataform non comporta costi, ma per eliminarla puoi seguire questi passaggi:
Nella console Google Cloud , vai alla pagina Dataform.
Fai clic su
quickstart-repository
.Nella scheda Aree di lavoro di sviluppo, fai clic sul menu
Altro accanto aquickstart-workspace
, quindi seleziona Elimina.Per confermare, fai clic su Elimina.
Elimina il repository Dataform
La creazione del repository Dataform non comporta costi, ma per eliminarlo puoi seguire questi passaggi:
Nella console Google Cloud , vai alla pagina Dataform.
Accanto a
quickstart-repository
, fai clic sul menu Altro e seleziona Elimina.Nella finestra Elimina repository, inserisci il nome del repository per confermare l'eliminazione.
Per confermare, fai clic su Elimina.
Passaggi successivi
Per saperne di più su Dataform, vedi Panoramica di Dataform.
Per scoprire di più sulle funzionalità di Dataform, consulta Funzionalità di Dataform.
Per scoprire di più su Dataform Core, consulta la panoramica di Dataform Core.
Per scoprire come eseguire l'override delle impostazioni predefinite di Dataform del repository, consulta Configurare le impostazioni del flusso di lavoro Dataform.
Per scoprire di più sulla gestione dei set di dati in BigQuery, consulta Gestione dei set di dati.
Per scoprire di più sulla gestione delle tabelle in BigQuery, consulta Gestire le tabelle.