Creare pipeline
Questo documento descrive come creare pipeline in BigQuery. Le pipeline sono basate su Dataform.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- Segui le istruzioni riportate in Abilitare la gestione degli asset di codice per salvare, condividere e gestire le versioni degli asset di codice, come le pipeline.
- Se è la prima volta che crei un asset di codice, imposta la regione predefinita per l'archiviazione degli asset di codice. Non puoi modificare la regione di una risorsa di codice dopo averlo creata.
Ruoli obbligatori per le pipeline
Per ottenere le autorizzazioni necessarie per creare pipeline, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:
-
Per creare pipeline:
Code Creator (
roles/dataform.codeCreator
) -
Per modificare ed eseguire le pipeline:
Editor Dataform (
roles/dataform.editor
)
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per ulteriori informazioni su IAM di Dataform, consulta Controllare l'accesso con IAM.
Ruoli obbligatori per le opzioni del notebook
Per ottenere le autorizzazioni necessarie per selezionare un modello di runtime nelle opzioni del notebook, chiedi all'amministratore di concederti il ruolo IAM Utente di runtime del notebook (roles/aiplatform.notebookRuntimeUser
) nel progetto.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Se non disponi di questo ruolo, puoi selezionare la specifica del runtime del notebook predefinita.
Crea una pipeline
Per creare una pipeline:
Vai alla pagina BigQuery.
Nella barra delle schede del riquadro dell'editor, fai clic sulla
freccia accanto al segno + e poi su Pipeline.(Facoltativo) Per rinominare la pipeline, fai clic sul nome della pipeline e poi digita un nuovo nome.
Fai clic su Inizia, poi vai alla scheda Impostazioni.
Nel campo Service account, seleziona un account di servizio Dataform.
Nella sezione Località, seleziona una regione di elaborazione per la pipeline.
- Per selezionare una regione specifica, seleziona Regione, quindi seleziona una regione nel menu Regione.
- Per selezionare più regioni, seleziona Più regioni e poi seleziona una più regioni nel menu Più regioni.
La regione di elaborazione della pipeline non deve corrispondere alla regione di archiviazione predefinita per gli asset di codice.
Opzioni del notebook
Se prevedi di aggiungere un notebook alla pipeline, segui questi passaggi nella sezione Opzioni notebook:
Nel campo Modello di runtime, accetta il runtime del notebook predefinito o cerca e seleziona un runtime esistente.
- Per visualizzare le specifiche del runtime predefinito, fai clic sulla freccia adiacente.
- Per creare un nuovo runtime, consulta Creare un modello di runtime.
Nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per archiviare l'output degli appunti nella pipeline.
Segui la procedura descritta in Aggiungere un'entità a un criterio a livello di bucket per aggiungere il tuo account di servizio Dataform personalizzato come entità al bucket Cloud Storage che prevedi di utilizzare per archiviare l'output delle esecuzioni pianificate della pipeline e concedi a questa entità il ruolo Amministratore archiviazione (
roles/storage.admin
).Al service account Dataform personalizzato selezionato deve essere concesso il ruolo IAM Storage Admin per il bucket selezionato.
Aggiungere un'attività della pipeline
Per aggiungere un'attività a una pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Per aggiungere un asset di codice, ad esempio una query SQL, un notebook o la preparazione dei dati:
Query SQL
Fai clic su Aggiungi attività e poi seleziona Query. Puoi creare una nuova query o importarne una esistente.
(Facoltativo) Nel riquadro Dettagli attività di query, nel menu Esegui dopo, seleziona un'attività che precede la query.
La query dipenderà dall'attività precedente.
Creare una nuova query
Fai clic sul menu a forma di freccia
accanto a Modifica query e seleziona Nel contesto o In una nuova scheda.Cerca una query esistente.
Seleziona un nome per la query e premi Invio.
Fai clic su Salva.
(Facoltativo) Per rinominare la query, fai clic sul nome della query nel riquadro della pipeline, fai clic su Modifica query, fai clic sul nome della query esistente nella parte superiore della schermata e poi digita un nuovo nome.
Importare una query esistente
Fai clic sul menu a forma di freccia
accanto a Modifica query e poi su Importa una copia.Cerca una query esistente da importare o selezionane una dal riquadro di ricerca. Quando importi una query, l'originale rimane invariato perché il file di origine della query viene copiato nella pipeline.
Fai clic su Modifica per aprire la query importata.
Fai clic su Salva.
Notebook
Fai clic su Aggiungi attività e seleziona Notebook. Puoi creare un nuovo taccuino o importarne uno esistente. Per modificare le impostazioni dei modelli di runtime del blocco note, consulta Opzioni del blocco note.
(Facoltativo) Nel riquadro Dettagli attività del blocco note, nel menu Esegui dopo, seleziona un'attività che precederà il blocco note.
Il tuo blocco note dipenderà dall'attività precedente.
Creare un nuovo blocco note
Fai clic sul menu a forma di freccia
accanto a Modifica notebook e seleziona Nel contesto o In una nuova scheda.Cerca un notebook esistente.
Seleziona il nome di un blocco note e premi Invio.
Fai clic su Salva.
(Facoltativo) Per rinominare il blocco note, fai clic sul nome del blocco note nel riquadro della pipeline, fai clic su Modifica blocco note, fai clic sul nome del blocco note esistente nella parte superiore della schermata e poi digita un nuovo nome.
Importare un blocco note esistente
Fai clic sul menu a forma di freccia
accanto a Modifica notebook e poi su Importa una copia.Cerca un notebook esistente da importare o selezionane uno dal riquadro di ricerca. Quando importi un notebook, l'originale rimane invariato perché il file di origine del notebook viene copiato nella pipeline.
Per aprire il notebook importato, fai clic su Modifica.
Fai clic su Salva.
Preparazione dei dati
Fai clic su Aggiungi attività e poi seleziona Preparazione dei dati. Puoi creare una nuova preparazione dei dati o importarne una esistente.
(Facoltativo) Nel riquadro Dettagli attività di preparazione dei dati, nel menu Esegui dopo, seleziona un'attività che precede la preparazione dei dati.
La preparazione dei dati dipende dall'attività precedente.
Creare una nuova preparazione dei dati
Fai clic sul menu a forma di freccia
accanto a Modifica preparazione dati e seleziona Nel contesto o In una nuova scheda.Cerca una preparazione dei dati esistente.
Seleziona un nome per la preparazione dei dati e premi Invio.
Fai clic su Salva.
(Facoltativo) Per rinominare la preparazione dei dati, fai clic sul nome della preparazione dei dati nel riquadro della pipeline, poi su Modifica preparazione dei dati, fai clic sul nome nella parte superiore dello schermo e inserisci un nuovo nome.
Importare una preparazione dei dati esistente
Fai clic sul menu a discesa con freccia
accanto a Modifica preparazione dati e poi su Importa una copia.Cerca una preparazione dati esistente da importare o selezionane una esistente dal riquadro di ricerca. Quando importi una preparazione dei dati, l'originale rimane invariato perché il file di origine della preparazione dei dati viene copiato nella pipeline.
Per aprire la preparazione dei dati importati, fai clic su Modifica.
Fai clic su Salva.
Modificare un'attività della pipeline
Per modificare un'attività della pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic sull'attività selezionata.
Per modificare l'attività precedente, nel menu Esegui dopo, seleziona un'attività che precederà la query o il blocco note.
Per modificare i contenuti dell'attività selezionata, fai clic su Modifica.
Nella nuova scheda che si apre, modifica i contenuti dell'attività e poi salva le modifiche apportate.
Eliminare un'attività della pipeline
Per eliminare un'attività da una pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic sull'attività selezionata.
Nel riquadro Dettagli attività, fai clic sull'icona EliminaElimina.
Condividere una pipeline
Per condividere una pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Condividi e poi seleziona Gestisci autorizzazioni.
Fai clic su Aggiungi utente/gruppo.
Nel campo Nuove entità, inserisci il nome di almeno un utente o un gruppo.
In Assegna i ruoli, seleziona un ruolo.
Fai clic su Salva.
Condividere un link a una pipeline
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Condividi e poi seleziona Condividi link. L'URL della pipeline viene copiato negli appunti del computer.
Esegui una pipeline
Per eseguire manualmente la versione corrente di una pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Esegui.
(Facoltativo) Per ispezionare l'esecuzione, visualizza le esecuzioni manuali precedenti.
Passaggi successivi
- Scopri di più sulle pipeline BigQuery.
- Scopri come gestire le pipeline.
- Scopri come pianificare le pipeline.