Cette page a été traduite par l'API Cloud Translation.

Planifier des pipelines

Ce document explique comment planifier des pipelines BigQuery, y compris comment planifier des pipelines et inspecter les exécutions de pipelines planifiées.

Les pipelines sont alimentés par Dataform. Chaque programmation de pipeline est exécutée à l'aide des identifiants utilisateur de votre compte Google ou d'un compte de service Dataform que vous sélectionnez lorsque vous configurez la programmation.

Les modifications que vous apportez à un pipeline sont automatiquement enregistrées, mais ne sont disponibles que pour vous et les utilisateurs auxquels le rôle Administrateur Dataform a été attribué dans le projet. Pour mettre à jour la programmation avec une nouvelle version du pipeline, vous devez déployer le pipeline. Le déploiement met à jour la programmation pour utiliser votre version actuelle du pipeline. Les programmations exécutent toujours la dernière version déployée.

Les programmations de pipelines contenant des notebooks utilisent une spécification d'exécution par défaut. Lors de l'exécution programmée d'un pipeline contenant des notebooks, BigQuery écrit la sortie du notebook dans le bucket Cloud Storage sélectionné lors de la création de la programmation.

Avant de commencer

Avant de commencer, créez un pipeline.

Activer la planification des pipelines

Pour programmer des pipelines, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :

Utilisateur du compte de service (roles/iam.serviceAccountUser): Suivez la procédure décrite dans Accorder un rôle unique à un compte de service pour ajouter votre compte de service en tant que compte principal à lui-même. En d'autres termes, ajoutez le compte de service en tant que compte principal au même compte de service. Attribuez ensuite le rôle Utilisateur du compte de service à ce compte principal.

Si votre pipeline contient des requêtes SQL, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :

Utilisateur de job BigQuery (roles/bigquery.jobUser): Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Utilisateur de job BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent les données.
Lecteur de données BigQuery (roles/bigquery.dataViewer): Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Lecteur de données BigQuery à votre compte de service sur les projets à partir desquels vos pipelines lisent les données.
Éditeur de données BigQuery (roles/bigquery.dataEditor): Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle Éditeur de données BigQuery à votre compte de service sur les projets dans lesquels vos pipelines écrivent des données.

Si votre pipeline contient des notebooks, vous devez attribuer les rôles suivants au compte de service que vous prévoyez d'utiliser pour les programmations de pipelines :

Utilisateur de Notebook Executor (roles/aiplatform.notebookExecutorUser): Suivez la procédure décrite dans Attribuer un rôle unique à un projet pour attribuer le rôle utilisateur Notebook Executor à votre compte de service sur le projet sélectionné.
Administrateur de l'espace de stockage (roles/storage.admin): Suivez la procédure décrite à la section Ajouter un compte principal à une stratégie au niveau du bucket pour ajouter votre compte de service en tant que compte principal au bucket Cloud Storage que vous prévoyez d'utiliser pour stocker le résultat des notebooks exécutés dans les exécutions de pipeline programmées, et attribuer le rôle Administrateur de l'espace de stockage à ce compte principal.

Vous devez également attribuer le rôle suivant à l'agent de service Dataform par défaut :

Créateur de jetons du compte de service (roles/iam.serviceAccountTokenCreator): Suivez la procédure décrite à la section Accorder l'accès à la création de jetons à un compte de service pour ajouter l'agent de service Dataform par défaut en tant que compte principal à votre compte de service, et attribuer le rôle Créateur de jetons de compte de service à ce compte principal.

Pour en savoir plus sur les comptes de service dans Dataform, consultez la section À propos des comptes de service dans Dataform.

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Supprimer des pipelines : Administrateur Dataform (roles/dataform.Admin) sur le pipeline
Créer, modifier, exécuter et supprimer des plannings de pipeline : Administrateur Dataform (roles/dataform.Admin) sur le pipeline
Afficher et exécuter des pipelines : Lecteur Dataform (roles/dataform.Viewer) sur le projet
Afficher les plannings de pipelines : Éditeur Dataform (roles/dataform.Editor) sur le projet

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.

Pour utiliser les modèles d'environnement d'exécution de notebook Colab lors de la planification de pipelines, vous devez disposer du rôle Utilisateur de l'environnement d'exécution de notebook (roles/aiplatform.notebookRuntimeUser).

Créer une programmation de pipeline

Pour créer une programmation de pipeline, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :

Si le volet de gauche n'apparaît pas, cliquez sur Développer le volet de gauche pour l'ouvrir.
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Schedule (Programmer).
Dans le volet Programmer un pipeline, dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans la section Authentification, autorisez le pipeline avec les identifiants de votre compte Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'environnement d'exécution par défaut. Pour savoir comment créer un modèle d'exécution de notebook Colab, consultez Créer un modèle d'exécution.

Remarque : Un modèle d'exécution de notebook doit se trouver dans la même région que le pipeline.
Remarque : Si vous ne disposez pas du rôle requis pour utiliser les modèles d'exécution de notebook Colab, vous pouvez toujours exécuter et planifier des pipelines avec les spécifications d'exécution par défaut.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.

Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
1. Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
2. Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
3. Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Définissez la priorité du job de requête BigQuery avec l'option Exécuter en tant que job interactif avec une priorité élevée (par défaut). Par défaut, BigQuery exécute les requêtes en tant que tâches de requête interactives, qui sont censées commencer à s'exécuter le plus rapidement possible. Si vous décochez cette option, les requêtes seront exécutées en tant que jobs de requête par lot, qui ont une priorité inférieure.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).

Lorsque vous créez la programmation, la version actuelle du pipeline est automatiquement déployée. Pour mettre à jour la programmation avec une nouvelle version du pipeline, déployez le pipeline.

La dernière version déployée du pipeline s'exécute à l'heure et à la fréquence sélectionnées.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur Créer, puis sélectionnez Planification du pipeline dans le menu.
Dans le volet Programmer un pipeline, sélectionnez un pipeline à programmer.
Dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans la section Authentification, autorisez le pipeline avec les identifiants de votre compte Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Si votre pipeline contient un notebook, dans la section Options du notebook, dans le champ Modèle d'environnement d'exécution, sélectionnez un modèle d'environnement d'exécution de notebook Colab ou les spécifications d'environnement d'exécution par défaut. Pour savoir comment créer un modèle d'exécution de notebook Colab, consultez Créer un modèle d'exécution.

Remarque : Un modèle d'exécution de notebook doit se trouver dans la même région que le pipeline.
Remarque : Si vous ne disposez pas du rôle requis pour utiliser les modèles d'exécution de notebook Colab, vous pouvez toujours exécuter et planifier des pipelines avec les spécifications d'exécution par défaut.
Si votre pipeline contient un notebook, dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.

Le compte de service sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné. Pour en savoir plus, consultez Activer la planification des pipelines.
Dans la section Fréquence de programmation, procédez comme suit :
1. Dans le menu Répétitions, sélectionnez la fréquence d'exécution du pipeline programmé.
2. Dans le champ À, saisissez l'heure d'exécution du pipeline programmé.
3. Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Définissez la priorité du job de requête BigQuery avec l'option Exécuter en tant que job interactif avec une priorité élevée (par défaut). Par défaut, BigQuery exécute les requêtes en tant que tâches de requête interactives, qui sont censées commencer à s'exécuter le plus rapidement possible. Si vous décochez cette option, les requêtes seront exécutées en tant que jobs de requête par lot, qui ont une priorité inférieure.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).

Autoriser votre compte Google

Pour authentifier la ressource avec vos identifiants de compte utilisateur Google, vous devez accorder manuellement l'autorisation aux pipelines BigQuery pour obtenir le jeton d'accès à votre compte Google et accéder aux données sources en votre nom. Vous pouvez accorder une approbation manuelle à l'aide de l'interface de la boîte de dialogue OAuth.

Vous n'avez besoin d'accorder l'autorisation aux pipelines BigQuery qu'une seule fois.

Pour révoquer l'autorisation que vous avez accordée, procédez comme suit :

Accédez à la page de votre compte Google.
Cliquez sur Pipelines BigQuery.
Cliquez sur Supprimer l'accès.

La modification du propriétaire du planning de pipeline en mettant à jour les identifiants nécessite également une approbation manuelle si le nouveau propriétaire du compte Google n'a jamais créé de planning auparavant.

Si votre pipeline contient un notebook, vous devez également accorder manuellement l'autorisation à Colab Enterprise pour obtenir le jeton d'accès à votre compte Google et accéder aux données sources en votre nom. Vous n'avez besoin d'accorder l'autorisation qu'une seule fois. Vous pouvez révoquer cette autorisation sur la page de votre compte Google.

Déployer un pipeline

Le déploiement d'un pipeline met à jour sa programmation avec la version actuelle du pipeline. Les programmations exécutent la dernière version déployée du pipeline.

Pour déployer un pipeline, procédez comme suit :

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Déployer.

La programmation correspondante est mise à jour avec la version actuelle du pipeline. La dernière version déployée du pipeline s'exécute à l'heure programmée.

Désactiver une programmation

Pour suspendre les exécutions programmées d'un pipeline sélectionné sans supprimer la programmation, vous pouvez la désactiver.

Pour désactiver une programmation pour un pipeline sélectionné, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est activée.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Désactiver.

Activer une programmation

Pour reprendre les exécutions programmées d'une programmation de pipeline désactivée, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.
Dans le tableau Détails de la programmation, sur la ligne État de la programmation, cliquez sur le bouton La programmation est désactivée.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Activer.

Exécuter manuellement un pipeline déployé

Lorsque vous exécutez manuellement un pipeline déployé dans une planification sélectionnée, BigQuery exécute le pipeline déployé une seule fois, indépendamment de la planification.

Pour exécuter manuellement un pipeline déployé, procédez comme suit :

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom de la planification de pipeline sélectionnée.
Sur la page Détails de la programmation, cliquez sur Exécuter.

Afficher toutes les programmations de pipeline

Pour afficher toutes les programmations de pipelines de votre projet Google Cloud , procédez comme suit :

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Facultatif : Pour afficher des colonnes supplémentaires avec des informations sur la planification du pipeline, cliquez sur Options d'affichage des colonnes, puis sélectionnez les colonnes et cliquez sur OK.

Afficher les détails de la programmation d'un pipeline

Pour afficher les détails d'une programmation de pipeline sélectionnée, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom de la planification de pipeline sélectionnée.

Afficher les exécutions planifiées passées

Pour afficher les exécutions précédentes d'une programmation de pipeline sélectionnée, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Exécutions.
Facultatif : Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la planification, dans la section Exécutions précédentes, inspectez les exécutions précédentes.
Facultatif : Pour actualiser la liste des exécutions précédentes, cliquez sur Actualiser.

Modifier une programmation de pipeline

Pour modifier une programmation de pipeline, procédez comme suit :

Volet Explorateur

Dans la console Google Cloud , accédez à la page BigQuery.

Accéder à BigQuery
Dans le panneau de gauche, cliquez sur Explorer :
Dans le volet Explorateur, développez votre projet, cliquez sur Pipelines, puis sélectionnez un pipeline.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.

Page Planification

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Cliquez sur le nom du pipeline sélectionné.
Sur la page Détails de la programmation, cliquez sur Modifier.
Cliquez sur Afficher la programmation, puis sur Modifier.
Dans la boîte de dialogue Programmer un pipeline, modifiez la programmation, puis cliquez sur Mettre à jour la programmation.

Supprimer une programmation de pipeline

Pour supprimer définitivement une programmation de pipeline, procédez comme suit :

Dans la console Google Cloud , accédez à la page Planification.

Accéder à la planification
Effectuez l'une des opérations suivantes :
- Cliquez sur le nom de la planification de pipeline sélectionnée, puis sur Supprimer sur la page Détails de la planification.
- Sur la ligne contenant la planification du pipeline sélectionnée, cliquez sur Afficher les actions dans la colonne Actions, puis sur Supprimer.
Dans la boîte de dialogue qui s'affiche, cliquez sur Supprimer.

Étapes suivantes

En savoir plus sur les pipelines dans BigQuery
Découvrez comment créer des pipelines.