Créer des pipelines
Ce document explique comment créer des pipelines dans BigQuery. Les pipelines sont alimentés par Dataform.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- Suivez les instructions de la page Activer la gestion des composants de code pour enregistrer, partager et gérer des versions de composants de code tels que les pipelines.
- Si c'est la première fois que vous créez un composant de code, définissez la région par défaut pour le stockage des composants de code. Vous ne pouvez pas modifier la région d'un composant de code après sa création.
Rôles requis pour les pipelines
Pour obtenir les autorisations nécessaires pour créer des pipelines, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le projet:
-
Pour créer des pipelines :
Créateur de code (
roles/dataform.codeCreator
) -
Pour modifier et exécuter des pipelines :
Éditeur Dataform (
roles/dataform.editor
)
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur IAM pour Dataform, consultez la section Contrôler l'accès avec IAM.
Rôles requis pour les options de notebook
Pour obtenir les autorisations nécessaires pour sélectionner un modèle d'environnement d'exécution dans les options du notebook, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur de l'environnement d'exécution Notebook (roles/aiplatform.notebookRuntimeUser
) sur le projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Si vous ne disposez pas de ce rôle, vous pouvez sélectionner la spécification d'exécution par défaut du notebook.
Créer un pipeline
Pour créer un pipeline, procédez comme suit:
Accédez à la page BigQuery.
Dans la barre d'onglets du volet de l'éditeur, cliquez sur la flèche
à côté du signe +, puis sur Pipeline.Facultatif: Pour renommer le pipeline, cliquez sur son nom, puis saisissez un nouveau nom.
Cliquez sur Commencer, puis accédez à l'onglet Paramètres.
Dans le champ Compte de service, sélectionnez un compte de service Dataform.
Dans la section Emplacement, sélectionnez une région de traitement pour le pipeline.
- Pour sélectionner une région spécifique, sélectionnez Région, puis sélectionnez une région dans le menu Région.
- Pour sélectionner un emplacement multirégional, sélectionnez Multirégional, puis sélectionnez un emplacement multirégional dans le menu Multirégional.
La région de traitement du pipeline n'a pas besoin de correspondre à votre région de stockage par défaut pour les composants de code.
Options du notebook
Si vous prévoyez d'ajouter un notebook à votre pipeline, procédez comme suit dans la section Options de notebook:
Dans le champ Modèle d'environnement d'exécution, acceptez l'environnement d'exécution par défaut du notebook ou recherchez et sélectionnez un environnement d'exécution existant.
- Pour afficher les spécifications de l'environnement d'exécution par défaut, cliquez sur la flèche adjacente.
- Pour créer un environnement d'exécution, consultez la section Créer un modèle d'environnement d'exécution.
Dans le champ Bucket Cloud Storage, cliquez sur Parcourir, puis sélectionnez ou créez un bucket Cloud Storage pour stocker la sortie des notebooks dans votre pipeline.
Suivez la procédure décrite à la section Ajouter un compte principal à une stratégie au niveau du bucket pour ajouter votre compte de service Dataform personnalisé en tant que compte principal au bucket Cloud Storage que vous prévoyez d'utiliser pour stocker le résultat des exécutions de pipeline programmées, et attribuer le rôle Administrateur de l'espace de stockage (
roles/storage.admin
) à ce compte principal.Le compte de service Dataform personnalisé sélectionné doit disposer du rôle IAM "Administrateur de stockage" sur le bucket sélectionné.
Ajouter une tâche de pipeline
Pour ajouter une tâche à un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Pour ajouter un composant de code, tel qu'une requête SQL, un notebook ou une préparation de données, procédez comme suit:
Requête SQL
Cliquez sur Ajouter une tâche, puis sélectionnez Requête. Vous pouvez créer une requête ou en importer une.
Facultatif: Dans le volet Détails de la tâche de requête, dans le menu Exécuter après, sélectionnez une tâche qui précèdera votre requête.
Votre requête dépendra de la tâche qui la précède.
Créer une requête
Cliquez sur le menu à flèche
à côté de Modifier la requête, puis sélectionnez Dans le contexte ou Dans un nouvel onglet.Recherchez une requête existante.
Sélectionnez un nom de requête, puis appuyez sur Entrée.
Cliquez sur Enregistrer.
Facultatif: Pour renommer la requête, cliquez sur son nom dans le volet du pipeline, cliquez sur Modifier la requête, cliquez sur le nom de la requête existante en haut de l'écran, puis saisissez un nouveau nom.
Importer une requête existante
Cliquez sur le menu à flèche
à côté de Modifier la requête, puis sur Importer une copie.Recherchez une requête existante à importer ou sélectionnez-en une dans le volet de recherche. Lorsque vous importez une requête, l'original reste inchangé, car le fichier source de la requête est copié dans le pipeline.
Cliquez sur Modifier pour ouvrir la requête importée.
Cliquez sur Enregistrer.
Notebook
Cliquez sur Ajouter une tâche, puis sélectionnez Notebook. Vous pouvez créer un notebook ou en importer un. Pour modifier les paramètres des modèles d'environnement d'exécution de notebook, consultez la section Options de notebook.
Facultatif: Dans le volet Détails de la tâche de notebook, dans le menu Exécuter après, sélectionnez une tâche qui précèdera votre notebook.
Votre notebook dépendra de la tâche qui le précède.
Créer un notebook
Cliquez sur le menu à flèche
à côté de Modifier le notebook, puis sélectionnez Dans le contexte ou Dans un nouvel onglet.Recherchez un notebook existant.
Sélectionnez un nom de notebook, puis appuyez sur Entrée.
Cliquez sur Enregistrer.
Facultatif: Pour renommer le notebook, cliquez sur son nom dans le volet du pipeline, cliquez sur Edit Notebook (Modifier le notebook), cliquez sur le nom du notebook existant en haut de l'écran, puis saisissez un nouveau nom.
Importer un notebook existant
Cliquez sur le menu à flèche
à côté de Modifier le notebook, puis sur Importer une copie.Recherchez un notebook existant à importer ou sélectionnez-en un dans le volet de recherche. Lorsque vous importez un notebook, l'original reste inchangé, car le fichier source du notebook est copié dans le pipeline.
Pour ouvrir le notebook importé, cliquez sur Modifier.
Cliquez sur Enregistrer.
Préparation des données
Cliquez sur Ajouter une tâche, puis sélectionnez Préparation des données. Vous pouvez créer une préparation de données ou en importer une existante.
Facultatif: Dans le volet Détails de la tâche de préparation des données, dans le menu Exécuter après, sélectionnez une tâche qui précèdera la préparation de vos données.
La préparation de vos données dépendra de la tâche qui la précède.
Créer une préparation de données
Cliquez sur le menu à flèche
à côté de Modifier la préparation des données, puis sélectionnez Dans le contexte ou Dans un nouvel onglet.Recherchez une préparation de données existante.
Sélectionnez un nom de préparation des données, puis appuyez sur Entrée.
Cliquez sur Enregistrer.
Facultatif: Pour renommer la préparation des données, cliquez sur son nom dans le volet du pipeline, cliquez sur Modifier la préparation des données, cliquez sur le nom en haut de l'écran, puis saisissez un nouveau nom.
Importer une préparation de données existante
Cliquez sur le menu déroulant de la flèche
à côté de Modifier la préparation des données, puis sur Importer une copie.Recherchez une préparation de données existante à importer ou sélectionnez-en une dans le volet de recherche. Lorsque vous importez une préparation de données, l'original reste inchangé, car le fichier source de la préparation de données est copié dans le pipeline.
Pour ouvrir la préparation des données importées, cliquez sur Modifier.
Cliquez sur Enregistrer.
Modifier une tâche de pipeline
Pour modifier une tâche de pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur la tâche sélectionnée.
Pour modifier la tâche précédente, dans le menu Exécuter après, sélectionnez une tâche qui précèdera votre requête ou votre notebook.
Pour modifier le contenu de la tâche sélectionnée, cliquez sur Modifier.
Dans le nouvel onglet qui s'ouvre, modifiez le contenu de la tâche, puis enregistrez les modifications apportées à la tâche.
Supprimer une tâche de pipeline
Pour supprimer une tâche d'un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur la tâche sélectionnée.
Dans le volet Détails de la tâche, cliquez sur l'icône SupprimerSupprimer.
Partager un pipeline
Pour partager un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Partager, puis sélectionnez Gérer les autorisations.
Cliquez sur Ajouter un utilisateur/un groupe.
Dans le champ Nouveaux comptes principaux, saisissez le nom d'au moins un utilisateur ou d'un groupe.
Pour Attribuer des rôles, sélectionnez un rôle.
Cliquez sur Enregistrer.
Partager un lien vers un pipeline
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Partager, puis sélectionnez Partager le lien. L'URL de votre pipeline est copiée dans le presse-papiers de votre ordinateur.
Exécuter un pipeline
Pour exécuter manuellement la version actuelle d'un pipeline, procédez comme suit:
Dans la console Google Cloud, accédez à la page BigQuery.
Dans le volet Explorer, développez votre projet et le dossier Pipelines, puis sélectionnez un pipeline.
Cliquez sur Exécuter.
Facultatif : Pour inspecter l'exécution, affichez les exécutions manuelles précédentes.
Étape suivante
- En savoir plus sur les pipelines BigQuery
- Découvrez comment gérer des pipelines.
- Découvrez comment planifier des pipelines.