Planifier des pipelines
Ce document explique comment planifier des pipelines BigQuery, y compris comment planifier des pipelines et inspecter les exécutions de pipeline planifiées.
Les pipelines sont alimentés par Dataform.
Chaque planification de pipeline est exécutée par un compte de service, que vous sélectionnez lors de la création de la planification. Pour en savoir plus sur les types de comptes de service dans Dataform, consultez la section À propos des comptes de service dans Dataform.
Les modifications que vous apportez à un pipeline sont automatiquement enregistrées, mais ne sont disponibles que pour vous et les utilisateurs auxquels le rôle Administrateur Dataform est attribué pour le projet. Pour mettre à jour la planification avec une nouvelle version du pipeline, vous devez déployer le pipeline. Le déploiement met à jour la planification pour utiliser votre version actuelle du pipeline. Les programmations exécutent toujours la dernière version déployée.
Les planifications des pipelines contenant des notebooks utilisent une spécification d'environnement d'exécution par défaut. Lors d'une exécution planifiée d'un pipeline contenant des notebooks, BigQuery écrit la sortie du notebook dans le bucket Cloud Storage sélectionné lors de la création de la programmation.
Avant de commencer
Avant de commencer, créez un pipeline.
Activer la planification de pipeline
Pour planifier des pipelines, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les planifications de pipelines:
- Utilisateur du compte de service (
roles/iam.serviceAccountUser
) - Suivez la procédure décrite à la section Accorder un rôle unique à un compte de service pour ajouter votre compte de service en tant que compte principal à lui-même. En d'autres termes, ajoutez le compte de service en tant que compte principal au même compte de service. Attribuez ensuite le rôle Utilisateur du compte de service à ce compte principal.
Si votre pipeline contient des requêtes SQL, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les planifications de pipeline:
- Utilisateur de job BigQuery (
roles/bigquery.jobUser
) - Suivez la procédure décrite à la section Attribuer un rôle unique à un projet pour attribuer le rôle Utilisateur de job BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent des données.
- Lecteur de données BigQuery (
roles/bigquery.dataViewer
) - Suivez la procédure décrite à la section Attribuer un rôle unique à un projet pour attribuer le rôle Lecteur de données BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent des données.
- Éditeur de données BigQuery (
roles/bigquery.dataEditor
) - Suivez la procédure décrite à la section Attribuer un rôle unique à un projet pour attribuer le rôle Éditeur de données BigQuery à votre compte de service sur les projets auxquels vos pipelines écrivent des données.
Si votre pipeline contient des notebooks, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les planifications de pipeline:
- Utilisateur de Notebook Executor (
roles/aiplatform.notebookExecutorUser
) - Suivez la procédure décrite à la section Attribuer un rôle unique à un projet pour attribuer le rôle utilisateur Notebook Executor à votre compte de service sur le projet sélectionné.
- Administrateur de l'espace de stockage (
roles/storage.admin
) - Suivez la procédure décrite à la section Ajouter un compte principal à une stratégie au niveau du bucket pour ajouter votre compte de service en tant que compte principal au bucket Cloud Storage que vous prévoyez d'utiliser pour stocker le résultat des notebooks exécutés dans des exécutions de pipeline planifiées, et attribuer le rôle Administrateur de l'espace de stockage à ce compte principal.
Vous devez également attribuer le rôle suivant au compte de service Dataform par défaut :
- Créateur de jetons du compte de service (
roles/iam.serviceAccountTokenCreator
) - Suivez la procédure décrite à la section Accorder l'accès à la création de jetons à un compte de service pour ajouter le compte de service Dataform par défaut en tant que compte principal à votre compte de service, et attribuer le rôle Créateur de jetons de compte de service à ce compte principal.
Pour en savoir plus sur les comptes de service dans Dataform, consultez la section À propos des comptes de service dans Dataform.
Rôles requis
Pour obtenir les autorisations nécessaires pour gérer les pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants:
-
Supprimer des pipelines :
Administrateur Dataform (
roles/dataform.Admin
) sur le pipeline -
Créer, modifier, exécuter et supprimer des planifications de pipeline :
Dataform Admin (
roles/dataform.Admin
) sur le pipeline -
Afficher et exécuter des pipelines :
Lecteur Dataform (
roles/dataform.Viewer
) sur le projet -
Afficher les planifications de pipeline :
Éditeur Dataform (
roles/dataform.Editor
) sur le projet
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.
Pour utiliser des modèles d'environnement d'exécution de notebook Colab lors de la planification de pipelines, vous avez besoin du rôle Utilisateur de l'environnement d'exécution de notebook (roles/aiplatform.notebookRuntimeUser
).
Créer une planification de pipeline
Pour créer un calendrier de pipeline, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Schedule (Programmer).
Dans le volet Planifier le pipeline, dans le champ Nom de la planification, saisissez un nom pour la planification.
Dans le champ Compte de service, sélectionnez un compte de service.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'environnement d'exécution par défaut. Pour en savoir plus sur la création d'un modèle d'exécution de notebook Colab, consultez la section Créer un modèle d'exécution.
Si votre pipeline contient un notebook, dans la section Options de notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.
Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez la section Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
- Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
- Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
- Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Cliquez sur Créer la programmation.
Lorsque vous créez la planification, la version actuelle du pipeline est automatiquement déployée. Pour mettre à jour la planification avec une nouvelle version du pipeline, déployez le pipeline.
La dernière version déployée du pipeline s'exécute à l'heure et à la fréquence sélectionnées.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur Créer, puis sélectionnez Planification de pipeline dans le menu.
Dans le volet Planifier un pipeline, sélectionnez un pipeline à planifier.
Dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans le champ Compte de service, sélectionnez un compte de service Dataform.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'environnement d'exécution par défaut. Pour en savoir plus sur la création d'un modèle d'exécution de notebook Colab, consultez la section Créer un modèle d'exécution.
Si votre pipeline contient un notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.
Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez la section Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
- Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
- Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
- Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Cliquez sur Créer la programmation.
Déployer un pipeline
Le déploiement d'un pipeline met à jour sa programmation avec la version actuelle du pipeline. Les planifications exécutent la dernière version déployée du pipeline.
Pour déployer un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Déployer.
La programmation correspondante est mise à jour avec la version actuelle du pipeline. La dernière version déployée du pipeline s'exécute à l'heure programmée.
Désactiver une programmation
Pour suspendre les exécutions programmées d'un pipeline sélectionné sans supprimer la programmation, vous pouvez la désactiver.
Pour désactiver une programmation pour un pipeline sélectionné, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est activée.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la planification, cliquez sur Désactiver.
Activer une programmation
Pour reprendre les exécutions programmées d'une planification de pipeline désactivée, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est désactivée.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Activer.
Exécuter manuellement un pipeline déployé
Lorsque vous exécutez manuellement un pipeline déployé selon un calendrier sélectionné, BigQuery exécute le pipeline déployé une seule fois, indépendamment du calendrier.
Pour exécuter manuellement un pipeline déployé, procédez comme suit:
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom de la planification du pipeline sélectionné.
Sur la page Détails de la planification, cliquez sur Exécuter.
Afficher toutes les planifications de pipeline
Pour afficher toutes les planifications de pipeline de votre projet Google Cloud, procédez comme suit:
Dans la console Google Cloud, accédez à la page Planification.
Facultatif: Pour afficher des colonnes supplémentaires avec des informations sur la planification du pipeline, cliquez sur
Options d'affichage des colonnes, puis sélectionnez les colonnes et cliquez sur OK.
Afficher les détails de la planification du pipeline
Pour afficher les détails d'une programmation de pipeline sélectionnée, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom de la planification du pipeline sélectionné.
Afficher les exécutions planifiées précédentes
Pour afficher les exécutions précédentes d'une programmation de pipeline sélectionnée, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Exécutions.
Facultatif: Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la planification, dans la section Exécutions précédentes, inspectez les exécutions précédentes.
Facultatif: Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.
Modifier la programmation d'un pipeline
Pour modifier la planification d'un pipeline, procédez comme suit:
Volet Explorer
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.
Page Planification
Dans la console Google Cloud, accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la planification, cliquez sur Modifier.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.
Supprimer une planification de pipeline
Pour supprimer définitivement une planification de pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page Planification.
Effectuez l'une des opérations suivantes :
Cliquez sur le nom de la planification du pipeline sélectionnée, puis sur la page Détails de la planification, cliquez sur Supprimer.
Sur la ligne contenant la planification du pipeline sélectionnée, cliquez sur
Afficher les actions dans la colonne Actions, puis sur Supprimer.
Dans la boîte de dialogue qui s'affiche, cliquez sur Supprimer.
Étape suivante
- En savoir plus sur les pipelines dans BigQuery
- Découvrez comment créer des pipelines.