Gestire le pipeline

Questo documento descrive come gestire le pipeline BigQuery, inclusa la programmazione ed eliminazione delle pipeline.

Questo documento descrive anche come visualizzare e gestire i metadati delle pipeline in Dataplex.

Le pipeline sono basate su Dataform.

Prima di iniziare

  1. Crea una pipeline BigQuery.
  2. Per gestire i metadati della pipeline in Dataplex, assicurati che l'API Dataplex sia abilitata nel tuo progetto Google Cloud.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire le pipeline, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Per gestire i metadati della pipeline in Dataplex, assicurati di disporre dei ruoli Dataplex necessari.

Per ulteriori informazioni su IAM di Dataform, consulta Controllare l'accesso con IAM.

Visualizza tutte le pipeline

Per visualizzare un elenco di tutte le pipeline del progetto:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su espandi Pipeline.

Visualizzare le esecuzioni manuali precedenti

Per visualizzare le esecuzioni manuali precedenti di una pipeline selezionata:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Esecuzioni.

  4. (Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.

Configurare gli avvisi per le esecuzioni delle pipeline non riuscite

Ogni pipeline ha un ID repository Dataform corrispondente. Ogni esecuzione della pipeline BigQuery viene registrata in Cloud Logging utilizzando l'ID repository Dataform corrispondente. Puoi utilizzare Cloud Monitoring per osservare le tendenze nei log di Cloud Logging per le esecuzioni delle pipeline BigQuery e per ricevere notifiche quando si verificano le condizioni descritte.

Per ricevere avvisi quando l'esecuzione di una pipeline BigQuery non va a buon fine, puoi creare un criterio di avviso basato su log per l'ID repository Dataform corrispondente. Per le istruzioni, consulta Configurare gli avvisi per le chiamate di flusso di lavoro non riuscite.

Per trovare l'ID del repository Dataform della pipeline:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline, quindi seleziona una pipeline.

  3. Fai clic su Impostazioni.

    L'ID repository Dataform della pipeline viene visualizzato nella parte inferiore della scheda Impostazioni.

Eliminare una pipeline

Per eliminare definitivamente una pipeline:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, espandi il progetto e la cartella Pipeline. Trova la pipeline che vuoi eliminare.

  3. Fai clic su Visualizza azioni accanto alla pipeline e poi su Elimina.

  4. Fai clic su Elimina.

Gestire i metadati in Dataplex

Dataplex ti consente di archiviare e gestire i metadati per le pipeline. Le pipeline sono disponibili in Dataplex per impostazione predefinita, senza configurazione aggiuntiva.

Puoi utilizzare Dataplex per gestire le pipeline in tutte le località delle pipeline. La gestione delle pipeline in Dataplex è soggetta alle quote e ai limiti di Dataplex e ai prezzi di Dataplex.

Dataplex recupera automaticamente i seguenti metadati dalle pipeline:

  • Nome dell'asset di dati
  • Asset di dati principale
  • Posizione dell'asset di dati
  • Tipo di asset di dati
  • Progetto Google Cloud corrispondente

Dataplex registra le pipeline come entries con i seguenti valori di entry:

Gruppo di voci di sistema
Il gruppo di voci di sistema per le pipeline è @dataform. Per visualizzare i dettagli delle voci della pipeline in Dataplex, devi visualizzare il gruppo di voci di sistema dataform. Per istruzioni su come visualizzare un elenco di tutte le voci di un gruppo di voci, consulta Visualizzare i dettagli di un gruppo di voci nella documentazione di Dataplex.
Tipo di voce del sistema
Il tipo di voce di sistema per le pipeline è dataform-code-asset. Per visualizzare i dettagli delle pipeline, devi visualizzare il tipo di voce di sistema dataform-code-asset, filtrare i risultati con un filtro basato sugli aspetti e impostare il campo type all'interno dell'aspetto dataform-code-asset su WORKFLOW. Seleziona una voce della pipeline selezionata. Per istruzioni su come visualizzare i dettagli di un tipo di voce selezionato, consulta Visualizzare i dettagli di un tipo di voce nella documentazione di Dataplex. Per istruzioni su come visualizzare i dettagli di una voce selezionata, consulta Visualizzare i dettagli di una voce nella documentazione di Dataplex.
Tipo di aspetto del sistema
Il tipo di aspetto del sistema per le pipeline è dataform-code-asset. Per fornire un contesto aggiuntivo alle pipeline in Dataplex annotando le voci della pipeline di dati con gli aspetti, visualizza il tipo di aspetto dataform-code-asset, filtra i risultati con un filtro basato sugli aspetti e imposta il campo type all'interno dell'aspetto dataform-code-asset su WORKFLOW. Per istruzioni su come annotare le voci con gli aspetti, consulta Gestire gli aspetti e arricchire i metadati nella documentazione di Dataplex.
Tipo
Il tipo di canvas di dati è WORKFLOW. Questo tipo ti consente di filtrare le pipeline nel dataform-code-asset tipo di voce di sistema e nel dataform-code-asset tipo di aspetto utilizzando la query aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW in un filtro basato sugli aspetti.

Per istruzioni su come cercare gli asset in Dataplex, consulta Cercare asset di dati in Dataplex nella documentazione di Dataplex.

Passaggi successivi