Gérer les préparations de données
Ce document explique comment gérer la préparation des données dans BigQuery, y compris comment attribuer les rôles Identity and Access Management (IAM) requis et gérer les métadonnées dans le catalogue universel Dataplex.
Les préparations de données sont des ressources BigQuery fournies par Dataform.
Avant de commencer
- Assurez-vous d'avoir activé l'API Gemini pour Google Cloud.
- Pour gérer les métadonnées de préparation des données dans Dataplex Universal Catalog, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud .
Rôles requis
Les utilisateurs qui préparent les données et les comptes de service Dataform qui exécutent les jobs ont besoin des autorisations accordées par les rôles Identity and Access Management (IAM) suivants.
Obtenir l'accès utilisateur pour la préparation des données
Pour obtenir les autorisations nécessaires pour préparer des données dans BigQuery, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Utilisateur BigQuery Studio (
roles/bigquery.studioUser
) sur le projet -
Utilisateur Gemini pour Google Cloud (
roles/cloudaicompanion.user
) sur le projet -
Accédez aux tables sources :
Lecteur de données BigQuery (
roles/bigquery.dataViewer
) sur la table, l'ensemble de données ou le projet
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Pour en savoir plus sur IAM pour les ensembles de données dans BigQuery, consultez Accorder l'accès à une ressource.Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Accéder à la gestion des métadonnées
Pour obtenir les autorisations nécessaires à la gestion des métadonnées de préparation des données dans Dataplex Universal Catalog, assurez-vous de disposer des rôles Dataplex Universal Catalog requis et de l'autorisation dataform.repositories.get
.
Accorder l'accès au compte de service Dataform
Pour vous assurer que le compte de service Dataform dispose des autorisations nécessaires pour exécuter des préparations de données dans BigQuery, demandez à votre administrateur d'accorder au compte de service Dataform les rôles IAM suivants :
-
Accédez aux tables sources :
Lecteur de données BigQuery (
roles/bigquery.dataViewer
) sur la table, l'ensemble de données ou le projet -
Accédez aux tables de destination :
Éditeur de données BigQuery (
roles/bigquery.dataEditor
) sur la table, l'ensemble de données ou le projet.
Le compte de service Dataform peut nécessiter des autorisations supplémentaires, en fonction de votre pipeline de préparation des données. Pour en savoir plus, consultez Accorder l'accès requis à Dataform.
Afficher les préparations de données existantes
Pour afficher la liste des préparations de données existantes, procédez comme suit :
- Sur la page BigQuery, accédez au volet Explorateur.
- Développez votre projet.
- Développez la liste Préparations des données.
Optimiser la préparation des données en les traitant de manière incrémentielle
Pour configurer la façon dont vos données préparées sont écrites dans une table de destination, procédez comme suit.
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, sélectionnez votre préparation des données.
Dans la barre d'outils de votre préparation des données, sélectionnez Plus > Mode écriture.
Sélectionnez l'une des options. Pour en savoir plus, consultez Mode Écriture.
Cliquez sur Enregistrer.
Contribuer à améliorer les suggestions
Vous pouvez contribuer à améliorer les suggestions de Gemini en partageant avec Google les données de requête que vous envoyez aux fonctionnalités disponibles en preview. Pour partager vos données de requête, procédez comme suit :
- Ouvrez l'éditeur de préparation des données dans BigQuery.
- Dans la barre d'outils de préparation des données, cliquez sur Paramètres Plus.
- Sélectionnez Partagez des données pour améliorer Gemini dans BigQuery.
Les paramètres de partage des données s'appliquent à l'ensemble du projet et ne peuvent être définis que par un administrateur du projet disposant des autorisations IAM serviceusage.services.enable
et serviceusage.services.list
. Pour en savoir plus sur l'utilisation des données dans le programme Testeur de confiance, consultez Programme Testeur de confiance de Gemini pour Google Cloud .
Versions de préparation des données
Vous pouvez choisir de créer une préparation des données à l'intérieur ou à l'extérieur d'un dépôt. La gestion des versions de la préparation des données est différente selon l'emplacement de la préparation des données.
Gestion des versions de la préparation des données dans les dépôts
Les dépôts sont des dépôts Git qui résident dans BigQuery ou chez un fournisseur tiers. Vous pouvez utiliser des espaces de travail dans les dépôts pour effectuer le contrôle des versions sur les préparations de données. Pour en savoir plus, consultez Utiliser le contrôle des versions avec un fichier.
Gestion des versions de la préparation des données en dehors des dépôts
Les préparations de données BigQuery qui ne se trouvent pas dans des dépôts ne permettent pas d'afficher, de comparer ni de restaurer les versions de préparation de données.
Pour obtenir la liste des versions de préparation des données par ordre chronologique, procédez comme suit :
- Sur la page BigQuery, accédez au volet Explorateur.
- Sélectionnez votre préparation des données.
- Cliquez sur Historique des versions.
Télécharger une préparation des données
Pour télécharger une préparation de données dans un fichier YAML, procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet et le dossier Préparations des données. Cliquez sur le nom de la préparation des données que vous souhaitez télécharger.
Cliquez sur Télécharger. La préparation des données est enregistrée au format YAML, par exemple
NAME data preparation.dp.yaml
.
Importer une préparation des données
Pour importer une préparation de données à partir d'un fichier YAML, procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, développez votre projet.
Accédez au dossier Préparation des données, puis cliquez sur more_vert Menu > Importer dans "Préparation des données".
Dans la boîte de dialogue Importer la préparation des données, sélectionnez un fichier à importer ou saisissez l'URL de la préparation des données.
Attribuez un nom à la préparation des données.
Sélectionnez un emplacement de préparation des données où les ressources sont gérées et stockées.
Cliquez sur Importer.
Gérer les métadonnées dans Dataplex Universal Catalog
Dataplex Universal Catalog vous permet de stocker et de gérer les métadonnées pour la préparation des données. Les préparations de données sont disponibles dans Dataplex Universal Catalog par défaut, sans configuration supplémentaire.
Vous pouvez utiliser Dataplex Universal Catalog pour gérer les préparations de données dans tous les emplacements BigQuery. La gestion des préparations de données dans Dataplex Universal Catalog est soumise aux quotas et limites de Dataplex Universal Catalog et aux tarifs de Dataplex Universal Catalog.
Dataplex Universal Catalog récupère automatiquement les métadonnées suivantes à partir des préparations de données :
- Nom de l'élément de données
- Parent de l'élément de données
- Emplacement de l'élément de données
- Type d'élément de données
- Projet Google Cloud correspondant
Dataplex Universal Catalog enregistre les préparations de données en tant qu'entrées avec les valeurs d'entrée suivantes :
- Groupe d'entrées système
- Le groupe d'entrées système pour la préparation des données est
@dataform
. Pour afficher les détails des entrées de préparation des données dans Dataplex Universal Catalog, vous devez afficher le groupe d'entrées systèmedataform
. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez Afficher les détails d'un groupe d'entrées dans la documentation Dataplex Universal Catalog. - Type d'entrée système
- Le type d'entrée système pour les préparations de données est
dataform-code-asset
. Pour afficher les détails des préparations de données, vous devez afficher le type d'entrée systèmedataform-code-asset
, filtrer les résultats avec un filtre basé sur les aspects et définir le champtype
dans l'aspectdataform-code-asset
surDATA_PREPARATION
. Sélectionnez ensuite une entrée de la préparation des données sélectionnée. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez Afficher les détails d'un type d'entrée dans la documentation Dataplex Universal Catalog. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez Afficher les détails d'une entrée dans la documentation Dataplex Universal Catalog. - Type d'aspect du système
- Le type d'aspect système pour la préparation des données est
dataform-code-asset
. Pour fournir un contexte supplémentaire aux préparations de données dans Dataplex Universal Catalog en annotant les entrées de préparation de données avec des aspects, affichez le type d'aspectdataform-code-asset
, filtrez les résultats avec un filtre basé sur les aspects et définissez le champtype
dans l'aspectdataform-code-asset
surDATA_PREPARATION
. Pour savoir comment annoter des entrées avec des aspects, consultez Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex Universal Catalog. - Type
- Le type de canevas de données est
DATA_PREPARATION
. Ce type vous permet de filtrer les préparations de données dans le type d'entrée systèmedataform-code-asset
et le type d'aspectdataform-code-asset
à l'aide de la requêteaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
dans un filtre basé sur les aspects.
Pour savoir comment rechercher des éléments, consultez Rechercher des éléments de données dans Dataplex Universal Catalog dans la documentation Dataplex Universal Catalog.
Étapes suivantes
- En savoir plus sur la préparation des données dans BigQuery
- Découvrez comment exécuter des préparations de données manuellement ou avec un calendrier.
- Découvrez comment créer des préparations de données.