Gérer les pipelines
Ce document explique comment gérer les pipelines BigQuery, y compris comment planifier et supprimer des pipelines.
Ce document explique également comment afficher et gérer les métadonnées de pipeline dans Dataplex.
Les pipelines sont alimentés par Dataform.
Avant de commencer
- Créez un pipeline BigQuery.
- Pour gérer les métadonnées du pipeline dans Dataplex, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud.
Rôles requis
Pour obtenir les autorisations nécessaires pour gérer les pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants:
-
Pour supprimer des pipelines :
Administrateur Dataform (
roles/dataform.Admin
) sur le pipeline -
Pour afficher et exécuter des pipelines :
Lecteur Dataform (
roles/dataform.Viewer
) sur le projet
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour gérer les métadonnées de pipeline dans Dataplex, assurez-vous de disposer des rôles Dataplex requis.
Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.
Afficher tous les pipelines
Pour afficher la liste de tous les pipelines de votre projet, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, cliquez sur
, puis développez Pipelines.
Afficher les exécutions manuelles précédentes
Pour afficher les exécutions manuelles précédentes d'un pipeline sélectionné, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Exécutions.
Facultatif: Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.
Configurer des alertes en cas d'échec des exécutions de pipeline
Chaque pipeline est associé à un ID de dépôt Dataform correspondant. Chaque exécution de pipeline BigQuery est journalisée dans Cloud Logging à l'aide de l'ID de dépôt Dataform correspondant. Vous pouvez utiliser Cloud Monitoring pour observer les tendances dans les journaux Cloud Logging pour les exécutions de pipeline BigQuery et pour vous avertir lorsque les conditions que vous décrivez apparaissent.
Pour recevoir des alertes en cas d'échec d'une exécution de pipeline BigQuery, vous pouvez créer une règle d'alerte basée sur les journaux pour l'ID de dépôt Dataform correspondant. Pour obtenir des instructions, consultez la section Configurer des alertes pour les invocations de workflow ayant échoué.
Pour trouver l'ID du dépôt Dataform de votre pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Paramètres.
L'ID du dépôt Dataform de votre pipeline s'affiche en bas de l'onglet Settings (Paramètres).
Supprimer un pipeline
Pour supprimer définitivement un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines. Recherchez le pipeline que vous souhaitez supprimer.
Cliquez sur
Afficher les actions à côté du pipeline, puis sur Supprimer.Cliquez sur Supprimer.
Gérer les métadonnées dans Dataplex
Dataplex vous permet de stocker et de gérer les métadonnées des pipelines. Les pipelines sont disponibles dans Dataplex par défaut, sans configuration supplémentaire.
Vous pouvez utiliser Dataplex pour gérer les pipelines dans tous les emplacements de pipeline. La gestion des pipelines dans Dataplex est soumise aux quotas et limites de Dataplex et aux tarifs de Dataplex.
Dataplex récupère automatiquement les métadonnées suivantes à partir des pipelines:
- Nom de l'élément de données
- Élément de données parent
- Emplacement de l'élément de données
- Type d'élément de données
- Projet Google Cloud correspondant
Dataplex consigne les pipelines en tant que entrées avec les valeurs d'entrée suivantes:
- Groupe d'entrées système
- Le groupe d'entrées système pour les pipelines est
@dataform
. Pour afficher les détails des entrées de pipeline dans Dataplex, vous devez afficher le groupe d'entrées systèmedataform
. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez la section Afficher les détails d'un groupe d'entrées dans la documentation Dataplex. - Type d'entrée du système
- Le type d'entrée système pour les pipelines est
dataform-code-asset
. Pour afficher les détails des pipelines, vous devez afficher le type d'entrée systèmedataform-code-asset
, filtrer les résultats avec un filtre basé sur un aspect et définir le champtype
dans l'aspectdataform-code-asset
surWORKFLOW
. Sélectionnez ensuite une entrée du pipeline sélectionné. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez la section Afficher les détails d'un type d'entrée dans la documentation Dataplex. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez la section Afficher les détails d'une entrée dans la documentation Dataplex. - Type d'aspect du système
- Le type d'aspect système pour les pipelines est
dataform-code-asset
. Pour fournir un contexte supplémentaire aux pipelines dans Dataplex en annotant les entrées de pipeline de données avec des aspects, affichez le type d'aspectdataform-code-asset
, filtrez les résultats avec un filtre basé sur l'aspect et définissez le champtype
dans l'aspectdataform-code-asset
surWORKFLOW
. Pour savoir comment annoter des entrées avec des aspects, consultez la section Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex. - Type
- Le type des canevas de données est
WORKFLOW
. Ce type vous permet de filtrer les pipelines dans le type d'entrée systèmedataform-code-asset
et le type d'aspectdataform-code-asset
à l'aide de la requêteaspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW
dans un filtre basé sur l'aspect.
Pour savoir comment rechercher des éléments dans Dataplex, consultez la section Rechercher des éléments de données dans Dataplex de la documentation Dataplex.
Étape suivante
- En savoir plus sur les pipelines BigQuery
- Découvrez comment créer des pipelines.
- Découvrez comment planifier des pipelines.