Planifier des préparations de données
Ce document explique comment planifier des pipelines de préparation des données et effectuer des exécutions manuelles.
Les préparations de données sont alimentées par Dataform. Chaque programmation de préparation des données est exécutée à l'aide de vos identifiants de compte Google ou d'un compte de service Dataform que vous sélectionnez lorsque vous configurez la programmation ou l'exécution test.
Les modifications que vous apportez aux étapes de préparation des données ne sont pas enregistrées automatiquement. Vous devez enregistrer et déployer les modifications avant de pouvoir les exécuter avec une planification. Les programmations exécutent toujours la dernière version déployée de votre préparation de données et excluent les modifications non déployées que vous pourriez être en train de développer.
Avant de commencer
Avant de commencer, créez une préparation des données.
Rôles requis
Pour autoriser une préparation de données avec un compte de service lorsque vous exécutez manuellement la préparation de données en développement ou planifiez la préparation de données, vous devez attribuer les rôles au compte de service que vous prévoyez d'utiliser pour exécuter les préparations de données. Pour en savoir plus, consultez Accorder l'accès au compte de service Dataform.
Développer une préparation de données
Lorsque vous développez une préparation de données, vous pouvez exécuter manuellement les étapes et inspecter la sortie avant de déployer les modifications en production. Vous pouvez tester la version actuelle que vous développez sur vos données, tandis que BigQuery continue d'exécuter la dernière version déployée, selon un planning. Avant de pouvoir exécuter la migration, vous devez configurer la destination et corriger les éventuelles erreurs de validation.
Exécuter manuellement une préparation des données en développement
Pour tester vos étapes de préparation des données et valider les résultats dans votre table de destination, exécutez manuellement la préparation des données à partir de l'éditeur de préparation des données :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Préparations des données. Cliquez sur le nom de la préparation des données que vous souhaitez exécuter.
Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Plus > Configurer l'expérience "Exécuter maintenant".
Dans la section Authentification, autorisez la préparation des données avec vos identifiants de compte Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur. Il s'agit de l'option par défaut.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service. Si le compte de service a besoin d'autorisations supplémentaires, accordez-lui les rôles requis en cliquant sur Tout autoriser.
Cliquez sur Enregistrer.
Corrigez les erreurs de validation qui s'affichent.
Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Exécuter.
Dans la boîte de dialogue Exécuter maintenant, cliquez sur Confirmer pour confirmer que cette exécution manuelle écrit des données dans une table de destination, que vous pouvez également utiliser pour les exécutions planifiées.
Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).
L'exécution effectue ensuite vos étapes et charge la sortie vers la destination.
Facultatif : Une fois l'exécution terminée, vous pouvez afficher les détails de l'exécution dans le volet Exécutions.
Déployer une préparation de données
Pour programmer des exécutions pour une version de votre préparation de données, vous devez d'abord la déployer. Les programmations exécutent la version déployée la plus récente.
Pour déployer une préparation des données, procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Préparations des données. Cliquez sur le nom de la préparation des données choisie.
L'éditeur de préparation des données s'ouvre.
Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Déployer.
Créer une programmation
Pour créer une programmation qui exécute les étapes de préparation des données déployées et charge les données préparées dans la table de destination, vous devez d'abord programmer une exécution de la préparation des données. Pour planifier l'exécution, vous devez configurer la destination et corriger les éventuelles erreurs de validation.
Pour créer une programmation de préparation des données, procédez comme suit :
Volet Explorateur
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Préparations des données. Cliquez sur le nom de la préparation des données que vous souhaitez programmer.
Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Planifier.
Saisissez un nom de programmation.
Dans la section Authentification, autorisez la préparation des données avec les identifiants de votre compte utilisateur Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Programmez une fréquence.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).
Page Planification
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur Créer, puis sélectionnez Planification de la préparation des données dans le menu.
Dans le volet Planifier la préparation des données, dans le champ Préparation des données, sélectionnez la préparation des données que vous souhaitez planifier.
Dans le champ Nom de la programmation, saisissez un nom pour la programmation.
Dans la section Authentification, autorisez la préparation des données avec les identifiants de votre compte utilisateur Google ou un compte de service.
- Pour utiliser les identifiants utilisateur de votre compte Google (Aperçu), sélectionnez Exécuter avec mes identifiants utilisateur.
- Pour utiliser un compte de service, sélectionnez Exécuter avec le compte de service sélectionné, puis sélectionnez un compte de service.
Dans la section Fréquence de programmation, procédez comme suit :
- Dans le menu Répétitions, sélectionnez la fréquence d'exécution de la préparation des données.
- Dans le champ À, saisissez l'heure d'exécution de la préparation des données programmée.
- Dans le menu Fuseau horaire, sélectionnez le fuseau horaire de la programmation.
Cliquez sur Créer la programmation. Si vous avez sélectionné Exécuter avec mes identifiants utilisateur comme méthode d'authentification, vous devez autoriser votre compte Google (Aperçu).
Autoriser votre compte Google
Pour authentifier la ressource avec vos identifiants de compte utilisateur Google, vous devez accorder manuellement l'autorisation aux pipelines BigQuery pour obtenir le jeton d'accès à votre compte Google et accéder aux données sources en votre nom. Vous pouvez accorder une approbation manuelle à l'aide de l'interface de la boîte de dialogue OAuth.
Vous n'avez besoin d'accorder une autorisation aux pipelines BigQuery qu'une seule fois.
Pour révoquer l'autorisation que vous avez accordée, procédez comme suit :
- Accédez à la page de votre compte Google.
- Cliquez sur Pipelines BigQuery.
- Cliquez sur Supprimer l'accès.
La modification du propriétaire du planning de préparation des données en mettant à jour les identifiants nécessite également une approbation manuelle si le nouveau propriétaire du compte Google n'a jamais créé de planning auparavant.
Exécuter manuellement une préparation de données planifiée
Lorsque vous exécutez manuellement une préparation de données dans une planification sélectionnée, BigQuery exécute la préparation de données une seule fois, indépendamment de la planification.
Pour exécuter manuellement une préparation de données planifiée, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom de la programmation de préparation des données sélectionnée.
Sur la page Détails de la programmation, cliquez sur Exécuter.
Afficher les plannings
Vous pouvez afficher les programmations de préparation des données dans l'éditeur de préparation des données ou sur la page Programmation.
Éditeur de préparation des données
Pour afficher la programmation d'une préparation de données, procédez comme suit :
- Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Planifier > Afficher le calendrier.
- Facultatif : Pour afficher l'historique de la programmation, cliquez sur Afficher les exécutions précédentes.
Page Planification
Pour afficher toutes les programmations de préparation des données de votre projet, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Facultatif : Pour afficher l'historique d'exécution et les détails d'une programmation sélectionnée, cliquez sur son nom. L'historique des exécutions manuelles n'est pas affiché.
Modifier une programmation
Vous pouvez modifier une programmation depuis l'éditeur de préparation des données ou la page Programmation.
Éditeur de préparation des données
Pour modifier une programmation, procédez comme suit :
- Dans la barre d'outils de l'éditeur de préparation des données, cliquez sur Planifier > Afficher le calendrier.
- Dans la boîte de dialogue Programmer la préparation des données, cliquez sur Modifier, puis modifiez la programmation.
- Cliquez sur Modifier le planning.
Page Planification
Pour modifier une programmation, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Cliquez sur le nom de la programmation de préparation des données sélectionnée.
Sur la page Détails de la programmation, cliquez sur Modifier.
Cliquez sur Afficher la programmation.
Dans la boîte de dialogue Programmer la préparation des données, cliquez sur Modifier, puis modifiez la programmation.
Cliquez sur Modifier le planning.
Supprimer une programmation
Pour supprimer définitivement une programmation pour une préparation de données sélectionnée, procédez comme suit :
Dans la console Google Cloud , accédez à la page Planification.
Sur la ligne contenant la planification, cliquez sur more_vert Actions > Supprimer.
Étapes suivantes
- Découvrez comment créer des préparations de données.
- En savoir plus sur la gestion des préparations de données