Creare pipeline

Questo documento descrive come creare pipeline in BigQuery. Le pipeline sono basate su Dataform.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. Ruoli obbligatori per le pipeline

    Per ottenere le autorizzazioni necessarie per creare pipeline, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:

    Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

    Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

    Per ulteriori informazioni su IAM di Dataform, consulta Controllare l'accesso con IAM.

    avrà accesso come proprietario a tutte le pipeline all'interno del progetto.

    Ruoli obbligatori per le opzioni del notebook

    Per ottenere le autorizzazioni necessarie per selezionare un modello di runtime nelle opzioni del notebook, chiedi all'amministratore di concederti il ruolo IAM Utente di runtime del notebook (roles/aiplatform.notebookRuntimeUser) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

    Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

    Se non disponi di questo ruolo, puoi selezionare la specifica del runtime del notebook predefinita.

    Impostare la regione predefinita per gli asset di codice

    Se è la prima volta che crei un asset di codice, devi impostare la regione predefinita per gli asset di codice. Non puoi modificare la regione di una risorsa di codice dopo averla creata.

    Tutti gli asset di codice in BigQuery Studio utilizzano la stessa regione predefinita. Per impostare la regione predefinita per gli asset di codice:

    1. Vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, individua il progetto in cui hai attivato gli asset codice.

    3. Fai clic su Visualizza azioni accanto al progetto, quindi fai clic su Cambia la mia regione di codice predefinita.

    4. In Regione, seleziona la regione che vuoi utilizzare per gli asset di codice.

    5. Fai clic su Seleziona.

    Per un elenco delle regioni in cui è disponibile, consulta Località di BigQuery Studio.

    Crea una pipeline

    Per creare una pipeline:

    1. Vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nella barra delle schede del riquadro dell'editor, fai clic sulla freccia accanto al segno + e poi su Pipeline.

    3. (Facoltativo) Per rinominare la pipeline, fai clic sul nome della pipeline e poi digita un nuovo nome.

    4. Fai clic su Inizia, poi vai alla scheda Impostazioni.

    5. Nella sezione Autenticazione, scegli di autorizzare la pipeline con le credenziali utente del tuo Account Google o con un account di servizio.

      • Per utilizzare le credenziali utente del tuo Account Google (Anteprima), seleziona Esegui con le mie credenziali utente.
      • Per utilizzare un account di servizio, seleziona Esegui con il service account selezionato, quindi seleziona un account di servizio.
    6. Nella sezione Località, seleziona una regione di elaborazione per la pipeline.

      1. Per selezionare una regione specifica, seleziona Regione, quindi seleziona una regione nel menu Regione.
      2. Per selezionare più regioni, seleziona Più regioni e poi seleziona una più regioni nel menu Più regioni.

      La regione di elaborazione della pipeline non deve corrispondere alla regione di archiviazione predefinita per gli asset di codice.

    Opzioni del notebook

    1. Se prevedi di aggiungere un notebook alla pipeline, segui questi passaggi nella sezione Opzioni di notebook:

      1. Nel campo Modello di runtime, accetta il runtime del notebook predefinito o cerca e seleziona un runtime esistente.

        • Per visualizzare le specifiche del runtime predefinito, fai clic sulla freccia adiacente.
        • Per creare un nuovo runtime, consulta Creare un modello di runtime.
      2. Nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per archiviare l'output delle note nella pipeline.

      3. Segui la procedura descritta in Aggiungere un'entità a un criterio a livello di bucket per aggiungere il tuo account di servizio Dataform personalizzato come entità al bucket Cloud Storage che prevedi di utilizzare per archiviare l'output delle esecuzioni pianificate della pipeline e concedi a questa entità il ruolo Amministratore archiviazione (roles/storage.admin).

        Al account di servizio Dataform personalizzato selezionato deve essere concesso il ruolo IAM Storage Admin per il bucket selezionato.

    Aggiungere un'attività della pipeline

    Per aggiungere un'attività a una pipeline:

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Per aggiungere un asset di codice, ad esempio una query SQL, un notebook o la preparazione dei dati:

      Query SQL

      1. Fai clic su Aggiungi attività e poi seleziona Query. Puoi creare una nuova query o importarne una esistente.

      2. (Facoltativo) Nel riquadro Dettagli attività di query, nel menu Esegui dopo, seleziona un'attività che precede la query.

        La query dipenderà dall'attività precedente.

      Creare una nuova query

      1. Fai clic sul menu a forma di freccia accanto a Modifica query e seleziona Nel contesto o In una nuova scheda.

      2. Cerca una query esistente.

      3. Seleziona un nome per la query e premi Invio.

      4. Fai clic su Salva.

      5. (Facoltativo) Per rinominare la query, fai clic sul nome della query nel riquadro della pipeline, fai clic su Modifica query, fai clic sul nome della query esistente nella parte superiore della schermata e poi digita un nuovo nome.

      Importare una query esistente

      1. Fai clic sul menu a forma di freccia accanto a Modifica query e poi su Importa una copia.

      2. Cerca una query esistente da importare o selezionane una dal riquadro di ricerca. Quando importi una query, l'originale rimane invariato perché il file di origine della query viene copiato nella pipeline.

      3. Fai clic su Modifica per aprire la query importata.

      4. Fai clic su Salva.

      Notebook

      1. Fai clic su Aggiungi attività e seleziona Notebook. Puoi creare un nuovo notebook o importarne uno esistente. Per modificare le impostazioni dei modelli di runtime del notebook, consulta Opzioni del notebook.

      2. (Facoltativo) Nel riquadro Dettagli attività del blocco note, nel menu Esegui dopo, seleziona un'attività che precederà il blocco note.

        Il tuo blocco note dipenderà dall'attività precedente.

      Creare un nuovo blocco note

      1. Fai clic sul menu a forma di freccia accanto a Modifica notebook e seleziona Nel contesto o In una nuova scheda.

      2. Cerca un notebook esistente.

      3. Seleziona il nome di un blocco note e premi Invio.

      4. Fai clic su Salva.

      5. (Facoltativo) Per rinominare il blocco note, fai clic sul nome del blocco note nel riquadro della pipeline, fai clic su Modifica blocco note, fai clic sul nome del blocco note esistente nella parte superiore della schermata e poi digita un nuovo nome.

      Importare un blocco note esistente

      1. Fai clic sul menu a forma di freccia accanto a Modifica notebook e poi su Importa una copia.

      2. Cerca un notebook esistente da importare o selezionane uno dal riquadro di ricerca. Quando importi un notebook, l'originale rimane invariato perché il file di origine del notebook viene copiato nella pipeline.

      3. Per aprire il notebook importato, fai clic su Modifica.

      4. Fai clic su Salva.

      Preparazione dei dati

      1. Fai clic su Aggiungi attività e poi seleziona Preparazione dei dati. Puoi creare una nuova preparazione dei dati o importarne una esistente.

      2. (Facoltativo) Nel riquadro Dettagli attività di preparazione dei dati, nel menu Esegui dopo, seleziona un'attività che precede la preparazione dei dati.

        La preparazione dei dati dipende dall'attività precedente.

      Creare una nuova preparazione dei dati

      1. Fai clic sul menu a forma di freccia accanto a Modifica preparazione dati e seleziona Nel contesto o In una nuova scheda.

      2. Cerca una preparazione dei dati esistente.

      3. Seleziona un nome per la preparazione dei dati e premi Invio.

      4. Fai clic su Salva.

      5. (Facoltativo) Per rinominare la preparazione dei dati, fai clic sul nome della preparazione dei dati nel riquadro della pipeline, poi su Modifica preparazione dei dati, fai clic sul nome nella parte superiore dello schermo e inserisci un nuovo nome.

      Importare una preparazione dei dati esistente

      1. Fai clic sul menu a discesa con freccia accanto a Modifica preparazione dati e poi su Importa una copia.

      2. Cerca una preparazione dati esistente da importare o selezionane una esistente dal riquadro di ricerca. Quando importi una preparazione dei dati, l'originale rimane invariato perché il file di origine della preparazione dei dati viene copiato nella pipeline.

      3. Per aprire la preparazione dei dati importati, fai clic su Modifica.

      4. Fai clic su Salva.

    Modificare un'attività della pipeline

    Per modificare un'attività della pipeline:

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Fai clic sull'attività selezionata.

    4. Per modificare l'attività precedente, nel menu Esegui dopo, seleziona un'attività che precederà la query o il blocco note.

    5. Per modificare i contenuti dell'attività selezionata, fai clic su Modifica.

    6. Nella nuova scheda che si apre, modifica i contenuti dell'attività e poi salva le modifiche apportate.

    Eliminare un'attività della pipeline

    Per eliminare un'attività da una pipeline:

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Fai clic sull'attività selezionata.

    4. Nel riquadro Dettagli attività, fai clic sull'icona EliminaElimina.

    Condividere una pipeline

    Per condividere una pipeline:

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Fai clic su Condividi e poi seleziona Gestisci autorizzazioni.

    4. Fai clic su Aggiungi utente/gruppo.

    5. Nel campo Nuove entità, inserisci il nome di almeno un utente o un gruppo.

    6. In Assegna i ruoli, seleziona un ruolo.

    7. Fai clic su Salva.

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Fai clic su Condividi e poi seleziona Condividi link. L'URL della pipeline viene copiato negli appunti del computer.

    Esegui una pipeline

    Per eseguire manualmente la versione corrente di una pipeline:

    1. Nella Google Cloud console, vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

    3. Fai clic su Esegui. Se hai selezionato Esegui con le mie credenziali utente per l'autenticazione, devi autorizzare il tuo Account Google (anteprima).

    4. (Facoltativo) Per ispezionare l'esecuzione, visualizza le esecuzioni manuali precedenti.

    Autorizzare l'Account Google

    Per autenticare la risorsa con le credenziali utente del tuo Account Google, devi concedere manualmente l'autorizzazione alle pipeline BigQuery per recuperare il token di accesso per il tuo Account Google e accedere ai dati di origine per tuo conto. Puoi concedere l'approvazione manuale con l'interfaccia della finestra di dialogo OAuth.

    Devi concedere l'autorizzazione alle pipeline BigQuery una sola volta.

    Per revocare l'autorizzazione che hai concesso:

    1. Vai alla pagina del tuo Account Google.
    2. Fai clic su Pipeline BigQuery.
    3. Fai clic su Rimuovi accesso.

    Se la pipeline contiene un notebook, devi anche concedere manualmente l'autorizzazione a Colab Enterprise per ottenere il token di accesso per il tuo Account Google e accedere ai dati di origine per tuo conto. Devi soltanto dare l'autorizzazione una volta. Puoi revocare questa autorizzazione nella pagina dell'Account Google.

    Passaggi successivi