Pianificare le pipeline

Questo documento descrive come pianificare pipeline BigQuery, incluso come pianificare le pipeline e ispezionare le esecuzioni delle pipeline pianificate.

Le pipeline sono basate su Dataform. Ogni pianificazione della pipeline viene eseguita utilizzando le credenziali utente del tuo Account Google o un service account Dataform che selezioni quando configuri la pianificazione.

Le modifiche apportate a una pipeline vengono salvate automaticamente, ma sono disponibili solo per te e per gli utenti a cui è stato concesso il ruolo Amministratore Dataform nel progetto. Per aggiornare la pianificazione con una nuova versione della pipeline, devi eseguire il deployment della pipeline. Il deployment aggiorna la pianificazione in modo che utilizzi la versione attuale della pipeline. Le pianificazioni eseguono sempre l'ultima versione di cui è stato eseguito il deployment.

Le pianificazioni delle pipeline che contengono blocchi note utilizzano una specifica di runtime predefinita. Durante l'esecuzione pianificata di una pipeline contenente notebook, BigQuery scrive l'output del notebook nel bucket Cloud Storage selezionato durante la creazione della pianificazione.

Prima di iniziare

Prima di iniziare, crea una pipeline.

Abilita la pianificazione delle pipeline

Per pianificare le pipeline, devi concedere i seguenti ruoli al account di servizio che prevedi di utilizzare per le pianificazioni delle pipeline:

Utente del service account (roles/iam.serviceAccountUser)
Segui la procedura descritta in Concedere un singolo ruolo a un service account per aggiungere il tuo account di servizio come entità a se stesso. In altre parole, aggiungi il account di servizio come entità allo stessoaccount di serviziot. Quindi, concedi a questa entità il ruolo Utente account di servizio.

Se la tua pipeline contiene query SQL, devi concedere i seguenti ruoli al account di servizio che prevedi di utilizzare per le pianificazioni della pipeline:

Utente job BigQuery (roles/bigquery.jobUser)
Segui Concedi un singolo ruolo a un progetto per concedere il ruolo Utente job BigQuery al tuo account di servizio nei progetti da cui le pipeline leggono i dati.
BigQuery Data Viewer (roles/bigquery.dataViewer)
Segui Concedi un singolo ruolo a un progetto per concedere il ruolo Visualizzatore dati BigQuery al tuo account di servizio nei progetti da cui le pipeline leggono i dati.
Editor dati BigQuery (roles/bigquery.dataEditor)
Segui Concedi un singolo ruolo a un progetto per concedere il ruolo Editor dati BigQuery al tuo account di servizio sui progetti in cui le pipeline scrivono i dati.

Se la tua pipeline contiene blocchi note, devi concedere i seguenti ruoli al account di servizio che prevedi di utilizzare per le pianificazioni della pipeline:

Utente esecutore del notebook (roles/aiplatform.notebookExecutorUser)
Segui Concedere un singolo ruolo a un progetto per concedere il ruolo Utente esecutore notebook al tuo account di servizio nel progetto selezionato.
Amministratore dello spazio di archiviazione (roles/storage.admin)
Segui la procedura descritta in Aggiungere un'entità a un criterio a livello di bucket per aggiungere il tuo account di servizio come entità al bucket Cloud Storage che prevedi di utilizzare per archiviare l'output dei notebook eseguiti nelle esecuzioni della pipeline pianificate e concedi il ruolo Amministratore Storage a questa entità.

Inoltre, devi concedere il seguente ruolo al account di servizio Dataform predefinito:

Creatore token account di servizio (roles/iam.serviceAccountTokenCreator)
Segui le istruzioni riportate in Concedere l'accesso alla creazione di token a un service account per aggiungere l'account di servizio Dataform predefinito come entità al tuo service account e concedere il ruolo Creatore token service account a questa entità.

Per saperne di più sui service account in Dataform, consulta Informazioni sui service account in Dataform.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire le pipeline, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Per saperne di più su Dataform IAM, consulta Controllare l'accesso con IAM.

Per utilizzare i modelli di runtime del notebook Colab durante la pianificazione delle pipeline, devi disporre del ruolo Utente runtime notebook (roles/aiplatform.notebookRuntimeUser).

Crea una pianificazione della pipeline

Per creare una pianificazione della pipeline:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Pianifica.

  4. Nel riquadro Pianifica pipeline, nel campo Nome pianificazione, inserisci un nome per la pianificazione.

  5. Nella sezione Autenticazione, autorizza la pipeline con le credenziali utente del tuo Account Google o un service account.

    • Per utilizzare le credenziali utente del tuo Account Google (Anteprima), seleziona Esegui con le mie credenziali utente.
    • Per utilizzare un account di servizio, seleziona Esegui con il service account selezionato, quindi seleziona un account di servizio.
  6. Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Modello di runtime, seleziona un modello di runtime del notebook Colab o le specifiche di runtime predefinite. Per informazioni dettagliate sulla creazione di un modello di runtime del notebook Colab, vedi Creare un modello di runtime.

  7. Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per archiviare l'output dei notebook nella pipeline.

    All'account di servizio selezionato deve essere concesso il ruolo IAM Amministratore Storage sul bucket selezionato. Per ulteriori informazioni, vedi Abilitare la pianificazione delle pipeline.

  8. Nella sezione Frequenza di pianificazione, segui questi passaggi:

    1. Nel menu Si ripete, seleziona la frequenza delle esecuzioni della pipeline pianificate.
    2. Nel campo All'ora, inserisci l'ora di esecuzione delle pipeline pianificate.
    3. Nel menu Fuso orario, seleziona il fuso orario per la pianificazione.
  9. Fai clic su Crea programmazione. Se hai selezionato Esegui con le mie credenziali utente come metodo di autenticazione, devi autorizzare il tuo Account Google (Anteprima).

Quando crei la pianificazione, viene eseguito automaticamente il deployment della versione attuale della pipeline. Per aggiornare la pianificazione con una nuova versione della pipeline, esegui il deployment della pipeline.

L'ultima versione di cui è stato eseguito il deployment della pipeline viene eseguita all'ora e alla frequenza selezionate.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic su Crea e poi seleziona Pianificazione pipeline dal menu.

  3. Nel riquadro Pianifica pipeline, seleziona una pipeline da pianificare.

  4. Nel campo Nome pianificazione, inserisci un nome per la pianificazione.

  5. Nella sezione Autenticazione, autorizza la pipeline con le credenziali utente del tuo Account Google o un service account.

    • Per utilizzare le credenziali utente del tuo Account Google (Anteprima), seleziona Esegui con le mie credenziali utente.
    • Per utilizzare un account di servizio, seleziona Esegui con il service account selezionato, quindi seleziona un account di servizio.
  6. Se la pipeline contiene un notebook, nella sezione Opzioni notebook, nel campo Modello di runtime, seleziona un modello di runtime del notebook Colab o le specifiche di runtime predefinite. Per informazioni dettagliate sulla creazione di un modello di runtime del notebook Colab, vedi Creare un modello di runtime.

  7. Se la pipeline contiene un notebook, nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per archiviare l'output dei notebook nella pipeline.

    All'account di servizio selezionato deve essere concesso il ruolo IAM Amministratore Storage sul bucket selezionato. Per ulteriori informazioni, vedi Abilitare la pianificazione delle pipeline.

  8. Nella sezione Frequenza di pianificazione, segui questi passaggi:

    1. Nel menu Ripetizioni, seleziona la frequenza di esecuzione della pipeline pianificata.
    2. Nel campo All'ora, inserisci l'ora di esecuzione delle pipeline pianificate.
    3. Nel menu Fuso orario, seleziona il fuso orario per la pianificazione.
  9. Fai clic su Crea programmazione. Se hai selezionato Esegui con le mie credenziali utente come metodo di autenticazione, devi autorizzare il tuo Account Google (Anteprima).

Autorizzare l'Account Google

Per autenticare la risorsa con le credenziali utente del tuo Account Google, devi concedere manualmente l'autorizzazione alle pipeline BigQuery per ottenere il token di accesso per il tuo Account Google e accedere ai dati di origine per tuo conto. Puoi concedere l'approvazione manuale con l'interfaccia della finestra di dialogo OAuth.

Devi concedere l'autorizzazione alle pipeline BigQuery una sola volta.

Per revocare l'autorizzazione che hai concesso:

  1. Vai alla pagina del tuo Account Google.
  2. Fai clic su BigQuery Pipelines.
  3. Fai clic su Rimuovi accesso.

La modifica del proprietario della pianificazione della pipeline tramite l'aggiornamento delle credenziali richiede anche l'approvazione manuale se il nuovo proprietario dell'Account Google non ha mai creato una pianificazione prima.

Se la pipeline contiene un blocco note, devi anche concedere manualmente l'autorizzazione a Colab Enterprise per ottenere il token di accesso per il tuo Account Google e accedere ai dati di origine per tuo conto. Devi concedere l'autorizzazione una sola volta. Puoi revocare questa autorizzazione nella pagina Account Google.

Esegui il deployment di una pipeline

Il deployment di una pipeline aggiorna la sua pianificazione con la versione corrente della pipeline. Le pianificazioni eseguono l'ultima versione di cui è stato eseguito il deployment della pipeline.

Per eseguire il deployment di una pipeline:

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Esegui il deployment.

La pianificazione corrispondente viene aggiornata con la versione corrente della pipeline. L'ultima versione di cui è stato eseguito il deployment della pipeline viene eseguita all'ora pianificata.

Disattivare una programmazione

Per mettere in pausa le esecuzioni pianificate di una pipeline selezionata senza eliminare la pianificazione, puoi disattivarla.

Per disattivare una pianificazione per una pipeline selezionata:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Visualizza pianificazione.

  4. Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è attivata.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pipeline selezionata.

  3. Nella pagina Dettagli pianificazione, fai clic su Disattiva.

Attivare una programmazione

Per riprendere le esecuzioni pianificate di una pianificazione della pipeline disattivata:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Visualizza pianificazione.

  4. Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è disattivata.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pipeline selezionata.

  3. Nella pagina Dettagli pianificazione, fai clic su Attiva.

Eseguire manualmente una pipeline di cui è stato eseguito il deployment

Quando esegui manualmente una pipeline di cui è stato eseguito il deployment in una pianificazione selezionata, BigQuery esegue la pipeline di cui è stato eseguito il deployment una volta, indipendentemente dalla pianificazione.

Per eseguire manualmente una pipeline di cui è stato eseguito il deployment:

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pianificazione della pipeline selezionata.

  3. Nella pagina Dettagli pianificazione, fai clic su Esegui.

Visualizza tutte le pianificazioni delle pipeline

Per visualizzare tutte le pianificazioni delle pipeline nel tuo progetto Google Cloud :

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. (Facoltativo) Per visualizzare colonne aggiuntive con i dettagli della pianificazione della pipeline, fai clic su Opzioni di visualizzazione delle colonne, quindi seleziona le colonne e fai clic su Ok.

Visualizzare i dettagli della pianificazione della pipeline

Per visualizzare i dettagli di una pianificazione della pipeline selezionata:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Visualizza pianificazione.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pianificazione della pipeline selezionata.

Visualizzare le esecuzioni pianificate precedenti

Per visualizzare le esecuzioni precedenti di una pianificazione della pipeline selezionata:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Esecuzioni.

  4. (Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pipeline selezionata.

  3. Nella pagina Dettagli pianificazione, nella sezione Esecuzioni passate, controlla le esecuzioni passate.

  4. (Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.

Modificare una pianificazione della pipeline

Per modificare una pianificazione della pipeline:

Riquadro Explorer

  1. Nella console Google Cloud , vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Visualizza pianificazione e poi su Modifica.

  4. Nella finestra di dialogo Pianifica pipeline, modifica la pianificazione e poi fai clic su Aggiorna pianificazione.

Pagina Pianificazione

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Fai clic sul nome della pipeline selezionata.

  3. Nella pagina Dettagli pianificazione, fai clic su Modifica.

  4. Fai clic su Visualizza pianificazione e poi su Modifica.

  5. Nella finestra di dialogo Pianifica pipeline, modifica la pianificazione e poi fai clic su Aggiorna pianificazione.

Elimina una pianificazione della pipeline

Per eliminare definitivamente una pianificazione della pipeline:

  1. Nella console Google Cloud , vai alla pagina Pianificazione.

    Vai a Programmazione

  2. Esegui una delle operazioni seguenti:

    • Fai clic sul nome della pianificazione della pipeline selezionata, quindi nella pagina Dettagli pianificazione, fai clic su Elimina.

    • Nella riga contenente la pianificazione della pipeline selezionata, fai clic su Visualizza azioni nella colonna Azioni e poi su Elimina.

  3. Nella finestra di dialogo visualizzata, fai clic su Elimina.

Passaggi successivi