Planifier des pipelines
Ce document explique comment planifier des pipelines BigQuery, y compris comment planifier des pipelines et inspecter les exécutions de pipelines planifiées.
Les pipelines sont alimentés par Dataform. Chaque programmation de pipeline est exécutée à l'aide des identifiants utilisateur de votre compte Google ou d'un compte de service Dataform que vous sélectionnez lorsque vous configurez la programmation.
Les modifications que vous apportez à un pipeline sont automatiquement enregistrées, mais ne sont disponibles que pour vous et les utilisateurs auxquels le rôle Administrateur Dataform a été attribué dans le projet. Pour mettre à jour la programmation avec une nouvelle version du pipeline, vous devez déployer le pipeline. Le déploiement met à jour la programmation pour utiliser votre version actuelle du pipeline. Les programmations exécutent toujours la dernière version déployée.
Les programmations de pipelines contenant des notebooks utilisent une spécification d'exécution par défaut. Lors de l'exécution programmée d'un pipeline contenant des notebooks, BigQuery écrit la sortie du notebook dans le bucket Cloud Storage sélectionné lors de la création de la programmation.
Avant de commencer
Avant de commencer, créez un pipeline.
Activer la planification des pipelines
Pour programmer des pipelines, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :
- Utilisateur du compte de service (
roles/iam.serviceAccountUser
) - Suivez la procédure décrite dans Accorder un rôle unique à un compte de service pour ajouter votre compte de service en tant que compte principal à lui-même. En d'autres termes, ajoutez le compte de service en tant que compte principal au même compte de service. Attribuez ensuite le rôle Utilisateur du compte de service à ce compte principal.
Si votre pipeline contient des requêtes SQL, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :
- Utilisateur de job BigQuery (
roles/bigquery.jobUser
) - Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Utilisateur de job BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent les données.
- Lecteur de données BigQuery (
roles/bigquery.dataViewer
) - Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Lecteur de données BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent les données.
- Éditeur de données BigQuery (
roles/bigquery.dataEditor
) - Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Éditeur de données BigQuery à votre compte de service sur les projets dans lesquels vos pipelines écrivent des données.
Si votre pipeline contient des notebooks, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :
- Utilisateur de Notebook Executor (
roles/aiplatform.notebookExecutorUser
) - Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle utilisateur Notebook Executor à votre compte de service sur le projet sélectionné.
- Administrateur de l'espace de stockage (
roles/storage.admin
) - Suivez la procédure décrite à la section Ajouter un compte principal à une stratégie au niveau du bucket pour ajouter votre compte de service en tant que compte principal au bucket Cloud Storage que vous prévoyez d'utiliser pour stocker le résultat des notebooks exécutés dans les exécutions de pipeline programmées, et attribuer le rôle Administrateur de l'espace de stockage à ce compte principal.
Vous devez également attribuer le rôle suivant au compte de service Dataform par défaut :
- Créateur de jetons du compte de service (
roles/iam.serviceAccountTokenCreator
) - Suivez la procédure décrite dans Accorder l'accès à la création de jetons à un compte de service pour ajouter le compte de service Dataform par défaut en tant que compte principal à votre compte de service, et attribuer le rôle Créateur de jetons de compte de service à ce compte principal.
Pour en savoir plus sur les comptes de service dans Dataform, consultez la section À propos des comptes de service dans Dataform.
Rôles requis
Pour obtenir les autorisations nécessaires pour gérer les pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Supprimer des pipelines :
Administrateur Dataform (
roles/dataform.Admin
) sur le pipeline -
Créer, modifier, exécuter et supprimer des plannings de pipeline :
Administrateur Dataform (
roles/dataform.Admin
) sur le pipeline -
Afficher et exécuter des pipelines :
Lecteur Dataform (
roles/dataform.Viewer
) sur le projet -
Afficher les planifications de pipelines :
Éditeur Dataform (
roles/dataform.Editor
) sur le projet
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.
Pour utiliser des modèles d'environnement d'exécution de notebook Colab lors de la planification de pipelines, vous devez disposer du rôle Utilisateur de l'environnement d'exécution de notebook (roles/aiplatform.notebookRuntimeUser
).
Créer une programmation de pipeline
Pour créer une programmation de pipeline, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Schedule (Programmer).
Dans le volet Programmer un pipeline, dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans la section Authentification, autorisez le pipeline avec les identifiants de votre compte Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'exécution par défaut. Pour savoir comment créer un modèle d'exécution de notebook Colab, consultez Créer un modèle d'exécution.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.
Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
- Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
- Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
- Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).
Lorsque vous créez la programmation, la version actuelle du pipeline est automatiquement déployée. Pour mettre à jour la programmation avec une nouvelle version du pipeline, déployez le pipeline.
La dernière version déployée du pipeline s'exécute à l'heure et à la fréquence sélectionnées.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur Créer, puis sélectionnez Planification du pipeline dans le menu.
Dans le volet Programmer un pipeline, sélectionnez un pipeline à programmer.
Dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans la section Authentification, autorisez le pipeline avec les identifiants de votre compte Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'exécution par défaut. Pour savoir comment créer un modèle d'exécution de notebook Colab, consultez Créer un modèle d'exécution.
Si votre pipeline contient un notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.
Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
- Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
- Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
- Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).
Autoriser votre compte Google
Pour authentifier la ressource avec vos identifiants de compte utilisateur Google, vous devez accorder manuellement l'autorisation aux pipelines BigQuery pour obtenir le jeton d'accès à votre compte Google et accéder aux données sources en votre nom. Vous pouvez accorder une approbation manuelle à l'aide de l'interface de la boîte de dialogue OAuth.
Vous n'avez besoin d'accorder une autorisation aux pipelines BigQuery qu'une seule fois.
Pour révoquer l'autorisation que vous avez accordée, procédez comme suit :
- Accédez à la page de votre compte Google.
- Cliquez sur Pipelines BigQuery.
- Cliquez sur Supprimer l'accès.
La modification du propriétaire du planning de pipeline en mettant à jour les identifiants nécessite également une approbation manuelle si le nouveau propriétaire du compte Google n'a jamais créé de planning auparavant.
Si votre pipeline contient un notebook, vous devez également accorder manuellement l'autorisation à Colab Enterprise d'obtenir le jeton d'accès à votre compte Google et d'accéder aux données sources en votre nom. Vous n'avez besoin d'accorder l'autorisation qu'une seule fois. Vous pouvez révoquer cette autorisation sur la page de votre compte Google.
Déployer un pipeline
Le déploiement d'un pipeline met à jour sa programmation avec la version actuelle du pipeline. Les programmations exécutent la dernière version déployée du pipeline.
Pour déployer un pipeline, procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Déployer.
La programmation correspondante est mise à jour avec la version actuelle du pipeline. La dernière version déployée du pipeline s'exécute à l'heure programmée.
Désactiver une programmation
Pour suspendre les exécutions programmées d'un pipeline sélectionné sans supprimer la programmation, vous pouvez la désactiver.
Pour désactiver une programmation pour un pipeline sélectionné, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est activée.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Désactiver.
Activer une programmation
Pour reprendre les exécutions programmées d'une programmation de pipeline désactivée, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est désactivée.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Activer.
Exécuter manuellement un pipeline déployé
Lorsque vous exécutez manuellement un pipeline déployé dans une planification sélectionnée, BigQuery exécute le pipeline déployé une seule fois, indépendamment de la planification.
Pour exécuter manuellement un pipeline déployé, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom de la planification de pipeline sélectionnée.
Sur la page Détails de la programmation, cliquez sur Exécuter.
Afficher toutes les programmations de pipeline
Pour afficher toutes les programmations de pipelines de votre projet Google Cloud , procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Facultatif : Pour afficher des colonnes supplémentaires avec des informations sur la planification du pipeline, cliquez sur
Options d'affichage des colonnes, puis sélectionnez les colonnes et cliquez sur OK.
Afficher les détails de la programmation d'un pipeline
Pour afficher les détails d'une programmation de pipeline sélectionnée, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom de la planification de pipeline sélectionnée.
Afficher les exécutions planifiées passées
Pour afficher les exécutions précédentes d'une programmation de pipeline sélectionnée, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Exécutions.
Facultatif : Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la planification, dans la section Exécutions précédentes, inspectez les exécutions précédentes.
Facultatif : Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.
Modifier une programmation de pipeline
Pour modifier la programmation d'un pipeline, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Modifier.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.
Supprimer une programmation de pipeline
Pour supprimer définitivement une programmation de pipeline, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Effectuez l'une des opérations suivantes :
Cliquez sur le nom de la planification de pipeline sélectionnée, puis sur Supprimer sur la page Détails de la planification.
Sur la ligne contenant la planification du pipeline sélectionnée, cliquez sur
Afficher les actions dans la colonne Actions, puis sur Supprimer.
Dans la boîte de dialogue qui s'affiche, cliquez sur Supprimer.
Étapes suivantes
- En savoir plus sur les pipelines dans BigQuery
- Découvrez comment créer des pipelines.