Gérer les pipelines

Ce document explique comment gérer les pipelines BigQuery, y compris comment les planifier et les supprimer.

Ce document explique également comment afficher et gérer les métadonnées de pipeline dans Dataplex Universal Catalog.

Les pipelines sont alimentés par Dataform.

Avant de commencer

  1. Créez un pipeline BigQuery.
  2. Pour gérer les métadonnées de pipeline dans Dataplex Universal Catalog, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud .

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour gérer les métadonnées de pipeline dans Dataplex Universal Catalog, assurez-vous de disposer des rôles Dataplex Universal Catalog requis.

Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.

Afficher tous les pipelines

Pour afficher la liste de tous les pipelines de votre projet, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, cliquez sur , puis développez Pipelines.

Afficher les exécutions manuelles passées

Pour afficher les exécutions manuelles précédentes d'un pipeline sélectionné, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.

  3. Cliquez sur Exécutions.

  4. Facultatif : Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.

Configurer des alertes pour les exécutions de pipeline ayant échoué

Chaque pipeline possède un ID de dépôt Dataform correspondant. Chaque exécution de pipeline BigQuery est consignée dans Cloud Logging à l'aide de l'ID de dépôt Dataform correspondant. Vous pouvez utiliser Cloud Monitoring pour observer les tendances dans les journaux Cloud Logging pour les exécutions de pipelines BigQuery et vous avertir lorsque les conditions que vous décrivez se produisent.

Pour recevoir des alertes en cas d'échec d'une exécution de pipeline BigQuery, vous pouvez créer une règle d'alerte basée sur les journaux pour l'ID de dépôt Dataform correspondant. Pour obtenir des instructions, consultez Configurer des alertes pour les échecs d'invocation de workflows.

Pour trouver l'ID du dépôt Dataform de votre pipeline, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.

  3. Cliquez sur Paramètres.

    L'ID du dépôt Dataform de votre pipeline s'affiche en bas de l'onglet Paramètres.

Supprimer un pipeline

Pour supprimer définitivement un pipeline, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet et le dossier Pipelines. Recherchez le pipeline que vous souhaitez supprimer.

  3. Cliquez sur Afficher les actions à côté du pipeline, puis sur Supprimer.

  4. Cliquez sur Supprimer.

Gérer les métadonnées dans Dataplex Universal Catalog

Dataplex Universal Catalog vous permet de stocker et de gérer les métadonnées des pipelines. Les pipelines sont disponibles dans Dataplex Universal Catalog par défaut, sans configuration supplémentaire.

Vous pouvez utiliser Dataplex Universal Catalog pour gérer les pipelines dans tous les emplacements de pipeline. La gestion des pipelines dans Dataplex Universal Catalog est soumise aux quotas et limites de Dataplex Universal Catalog et aux tarifs de Dataplex Universal Catalog.

Dataplex Universal Catalog récupère automatiquement les métadonnées suivantes à partir des pipelines :

  • Nom de l'élément de données
  • Parent de l'élément de données
  • Emplacement de l'élément de données
  • Type d'élément de données
  • Projet Google Cloud correspondant

Dataplex Universal Catalog enregistre les pipelines en tant qu'entrées avec les valeurs d'entrée suivantes :

Groupe d'entrées système
Le groupe d'entrées système pour les pipelines est @dataform. Pour afficher les détails des entrées de pipeline dans Dataplex Universal Catalog, vous devez afficher le groupe d'entrées système dataform. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez Afficher les détails d'un groupe d'entrées dans la documentation Dataplex Universal Catalog.
Type d'entrée système
Le type d'entrée système pour les pipelines est dataform-code-asset. Pour afficher les détails des pipelines, vous devez afficher le type d'entrée système dataform-code-asset, filtrer les résultats avec un filtre basé sur les aspects et définir le champ type dans l'aspect dataform-code-asset sur WORKFLOW. Sélectionnez ensuite une entrée du pipeline sélectionné. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez Afficher les détails d'un type d'entrée dans la documentation Dataplex Universal Catalog. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez Afficher les détails d'une entrée dans la documentation Dataplex Universal Catalog.
Type d'aspect du système
 Le type d'aspect système pour les pipelines est dataform-code-asset. Pour fournir un contexte supplémentaire aux pipelines dans Dataplex Universal Catalog en annotant les entrées de pipeline de données avec des aspects, affichez le type d'aspect dataform-code-asset, filtrez les résultats avec un filtre basé sur les aspects et définissez le champ type dans l'aspect dataform-code-asset sur WORKFLOW. Pour savoir comment annoter des entrées avec des aspects, consultez Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex Universal Catalog.
Type
Le type de canevas de données est WORKFLOW. Ce type vous permet de filtrer les pipelines dans le type d'entrée système dataform-code-asset et le type d'aspect dataform-code-asset à l'aide de la requête aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW dans un filtre basé sur les aspects.

Pour savoir comment rechercher des composants dans Dataplex Universal Catalog, consultez Rechercher des composants de données dans Dataplex Universal Catalog dans la documentation Dataplex Universal Catalog.

Étapes suivantes