Pianificare le pipeline
Questo documento descrive come pianificare le pipeline BigQuery, inclusa la programmazione delle pipeline e l'ispezione delle esecuzioni pianificate.
Le pipeline sono basate su Dataform.
Ogni pianificazione della pipeline viene eseguita da un account di servizio, che selezioni durante la creazione della pianificazione. Per ulteriori informazioni sui tipi di service account in Dataform, consulta Informazioni sui service account in Dataform.
Le modifiche apportate a una pipeline vengono salvate automaticamente, ma sono disponibili solo per te e per gli utenti a cui è stato assegnato il ruolo Amministratore di Dataform nel progetto. Per aggiornare la pianificazione con una nuova versione della pipeline, devi eseguire il deployment della pipeline. Il deployment aggiorna la pianificazione in modo da utilizzare la versione corrente della pipeline. Le pianificazioni eseguono sempre la versione di cui è stato eseguito il deployment più di recente.
Le pianificazioni delle pipeline che contengono notebook utilizzano una specifica del runtime predefinita. Durante un'esecuzione pianificata di una pipeline contenente notebook, BigQuery scrive l'output del notebook nel bucket Cloud Storage selezionato durante la creazione della pianificazione.
Prima di iniziare
Prima di iniziare, crea una pipeline.
Attiva la pianificazione della pipeline
Per pianificare le pipeline, devi concedere i seguenti ruoli al service account che prevedi di utilizzare per le pianificazioni delle pipeline:
- Utente dell'account di servizio (
roles/iam.serviceAccountUser
) - Segui la procedura descritta in Concedere un singolo ruolo a un account di servizio per aggiungere l'account di servizio come entità a se stesso. In altre parole, aggiungi l'account di servizio come entità allo stesso account di servizio. Quindi, concedi a questa entità il ruolo Utente account di servizio.
Se la pipeline contiene query SQL, devi concedere i seguenti ruoli all'account di servizio che prevedi di utilizzare per le pianificazioni della pipeline:
- Utente job BigQuery (
roles/bigquery.jobUser
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Utente job BigQuery al tuo account di servizio nei progetti da cui le pipeline leggono i dati.
- Visualizzatore dei dati BigQuery (
roles/bigquery.dataViewer
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Visualizzatore dati BigQuery al tuo account di servizio nei progetti da cui le pipeline leggono i dati.
- BigQuery Data Editor (
roles/bigquery.dataEditor
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Data Editor di BigQuery al tuo account di servizio nei progetti in cui le pipeline scrivono dati.
Se la pipeline contiene notebook, devi concedere i seguenti ruoli all'account di servizio che prevedi di utilizzare per le pianificazioni della pipeline:
- Utente dell'eseguitore del notebook (
roles/aiplatform.notebookExecutorUser
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Utente Executor di notebook al tuo account di servizio nel progetto selezionato.
- Amministratore dello spazio di archiviazione (
roles/storage.admin
) - Segui la procedura Aggiungere un'entità a un criterio a livello di bucket per aggiungere il tuo account di servizio come entità al bucket Cloud Storage che prevedi di utilizzare per archiviare l'output dei notebook eseguiti nelle esecuzioni pianificate della pipeline e concedi a questa entità il ruolo Amministratore archiviazione.
Inoltre, devi concedere il seguente ruolo all'account di servizio Dataform predefinito:
- Creatore token account di servizio (
roles/iam.serviceAccountTokenCreator
) - Segui la procedura descritta in Concedere l'accesso alla creazione di token a un account di servizio per aggiungere l'account di servizio Dataform predefinito come entità al tuo account di servizio e concedi il ruolo Creatore token account di servizio a questa entità.
Per scoprire di più sui service account in Dataform, consulta Informazioni sui service account in Dataform.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire le pipeline, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Eliminare le pipeline:
Amministratore Dataform (
roles/dataform.Admin
) nella pipeline -
Crea, modifica, esegui ed elimina le pianificazioni delle pipeline:
Dataform Admin (
roles/dataform.Admin
) nella pipeline -
Visualizza ed esegui le pipeline:
Visualizzatore Dataform (
roles/dataform.Viewer
) nel progetto -
Visualizza le pianificazioni delle pipeline:
Editor di Dataform (
roles/dataform.Editor
) nel progetto
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per ulteriori informazioni su IAM di Dataform, consulta Controllare l'accesso con IAM.
Per utilizzare i modelli di runtime del notebook di Colab quando pianifichi le pipeline, devi disporre del ruolo Utente runtime del notebook (roles/aiplatform.notebookRuntimeUser
).
Crea una pianificazione della pipeline
Per creare una pianificazione della pipeline:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Pianifica.
Nel riquadro Pianifica pipeline, inserisci un nome per la pianificazione nel campo Nome pianificazione.
Nel campo Account di servizio, seleziona un account di servizio.
Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Modello di runtime, seleziona un modello di runtime del notebook Colab o le specifiche di runtime predefinite. Per maggiori dettagli sulla creazione di un modello di runtime del notebook Colab, consulta Creare un modello di runtime.
Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per memorizzare l'output dei notebook nella pipeline.
All'account di servizio selezionato deve essere concesso il ruolo IAM Amministratore archiviazione per il bucket selezionato. Per ulteriori informazioni, vedi Attivare la pianificazione della pipeline.
Nella sezione Frequenza pianificazione, segui questi passaggi:
- Nel menu Si ripete, seleziona la frequenza delle esecuzioni pianificate della pipeline.
- Nel campo All'ora, inserisci l'ora delle esecuzioni pianificate della pipeline.
- Nel menu Fuso orario, seleziona il fuso orario per la pianificazione.
Fai clic su Crea programmazione.
Quando crei la pianificazione, viene eseguito automaticamente il deployment della versione corrente della pipeline. Per aggiornare la pianificazione con una nuova versione della pipeline, esegui il deployment della pipeline.
La versione più recente della pipeline di cui è stato eseguito il deployment viene eseguita con la frequenza e nell'ora selezionate.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic su Crea e seleziona Pianificazione pipeline dal menu.
Nel riquadro Pianifica pipeline, seleziona una pipeline da pianificare.
Nel campo Nome pianificazione, inserisci un nome per la pianificazione.
Nel campo Account di servizio, seleziona un account di servizio Dataform.
Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Modello di runtime, seleziona un modello di runtime del notebook Colab o le specifiche di runtime predefinite. Per maggiori dettagli sulla creazione di un modello di runtime del notebook Colab, consulta Creare un modello di runtime.
Se la pipeline contiene un notebook, nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per memorizzare l'output dei notebook nella pipeline.
All'account di servizio selezionato deve essere concesso il ruolo IAM Amministratore archiviazione per il bucket selezionato. Per ulteriori informazioni, vedi Attivare la pianificazione della pipeline.
Nella sezione Frequenza pianificazione, segui questi passaggi:
- Nel menu Ripetizioni, seleziona la frequenza delle esecuzioni pianificate della pipeline.
- Nel campo All'ora, inserisci l'ora delle esecuzioni pianificate della pipeline.
- Nel menu Fuso orario, seleziona il fuso orario per la pianificazione.
Fai clic su Crea programmazione.
Esegui il deployment di una pipeline
Il deployment di una pipeline aggiorna la relativa pianificazione con la versione corrente della pipeline. Le pianificazioni eseguono la versione di cui è stato eseguito il deployment più recente della pipeline.
Per eseguire il deployment di una pipeline:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Esegui il deployment.
La pianificazione corrispondente viene aggiornata con la versione corrente della pipeline. L'ultima versione di cui è stato eseguito il deployment della pipeline viene eseguita all'ora pianificata.
Disattivare una pianificazione
Per mettere in pausa le esecuzioni pianificate di una pipeline selezionata senza eliminare la pianificazione, puoi disattivarla.
Per disattivare una pianificazione per una pipeline selezionata:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Visualizza pianificazione.
Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è attivata.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pipeline selezionata.
Nella pagina Dettagli pianificazione, fai clic su Disattiva.
Attivare una pianificazione
Per riprendere le esecuzioni pianificate di una pianificazione della pipeline disattivata:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Visualizza pianificazione.
Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è disattivata.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pipeline selezionata.
Nella pagina Dettagli pianificazione, fai clic su Attiva.
Eseguire manualmente una pipeline di cui è stato eseguito il deployment
Quando esegui manualmente una pipeline di cui è stato eseguito il deployment in una pianificazione selezionata, BigQuery esegue la pipeline di cui è stato eseguito il deployment una volta, indipendentemente dalla pianificazione.
Per eseguire manualmente una pipeline di cui è stato eseguito il deployment:
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pianificazione della pipeline selezionata.
Nella pagina Dettagli pianificazione, fai clic su Esegui.
Visualizza tutte le pianificazioni delle pipeline
Per visualizzare tutte le pianificazioni delle pipeline nel tuo progetto Google Cloud:
Nella console Google Cloud, vai alla pagina Pianificazione.
(Facoltativo) Per visualizzare altre colonne con i dettagli della pianificazione della pipeline, fai clic su
Opzioni di visualizzazione delle colonne, quindi seleziona le colonne e fai clic su OK.
Visualizzare i dettagli della pianificazione della pipeline
Per visualizzare i dettagli di una pianificazione della pipeline selezionata:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Visualizza pianificazione.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pianificazione della pipeline selezionata.
Visualizzare le esecuzioni pianificate precedenti
Per visualizzare le esecuzioni precedenti di una pianificazione della pipeline selezionata:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Esecuzioni.
(Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pipeline selezionata.
Nella pagina Dettagli pianificazione, nella sezione Esecuzioni passate, esamina le esecuzioni passate.
(Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.
Modificare la pianificazione di una pipeline
Per modificare la pianificazione di una pipeline:
Riquadro Explorer
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.
Fai clic su Visualizza pianificazione e poi su Modifica.
Nella finestra di dialogo Pianifica pipeline, modifica la pianificazione e poi fai clic su Aggiorna pianificazione.
Pagina Pianificazione
Nella console Google Cloud, vai alla pagina Pianificazione.
Fai clic sul nome della pipeline selezionata.
Nella pagina Dettagli pianificazione, fai clic su Modifica.
Fai clic su Visualizza pianificazione e poi su Modifica.
Nella finestra di dialogo Pianifica pipeline, modifica la pianificazione e poi fai clic su Aggiorna pianificazione.
Eliminare una pianificazione della pipeline
Per eliminare definitivamente una pianificazione della pipeline:
Nella console Google Cloud, vai alla pagina Pianificazione.
Esegui una delle operazioni seguenti:
Fai clic sul nome della pianificazione della pipeline selezionata e poi sulla pagina Dettagli pianificazione fai clic su Elimina.
Nella riga contenente la pianificazione della pipeline selezionata, fai clic su
Visualizza azioni nella colonna Azioni e poi su Elimina.
Nella finestra di dialogo visualizzata, fai clic su Elimina.
Passaggi successivi
- Scopri di più sulle pipeline in BigQuery.
- Scopri come creare pipeline.