Gérer les préparations de données

Ce document explique comment gérer la préparation des données dans BigQuery, y compris comment attribuer les rôles Identity and Access Management (IAM) requis et gérer les métadonnées dans le catalogue universel Dataplex.

Les préparations de données sont des ressources BigQuery fournies par Dataform.

Avant de commencer

  1. Assurez-vous d'avoir activé l'API Gemini pour Google Cloud.
  2. Pour gérer les métadonnées de préparation des données dans Dataplex Universal Catalog, assurez-vous que l'API Dataplex est activée dans votre projet Google Cloud .

Rôles requis

Les utilisateurs qui préparent les données et les comptes de service Dataform qui exécutent les jobs ont besoin des autorisations accordées par les rôles Identity and Access Management (IAM) suivants.

Obtenir l'accès utilisateur pour la préparation des données

Pour obtenir les autorisations nécessaires pour préparer des données dans BigQuery, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Pour en savoir plus sur IAM pour les ensembles de données dans BigQuery, consultez Accorder l'accès à une ressource.

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Accéder à la gestion des métadonnées

Pour obtenir les autorisations nécessaires à la gestion des métadonnées de préparation des données dans Dataplex Universal Catalog, assurez-vous de disposer des rôles Dataplex Universal Catalog requis et de l'autorisation dataform.repositories.get.

Accorder l'accès au compte de service Dataform

Pour vous assurer que le compte de service Dataform dispose des autorisations nécessaires pour exécuter des préparations de données dans BigQuery, demandez à votre administrateur d'accorder au compte de service Dataform les rôles IAM suivants :

Le compte de service Dataform peut nécessiter des autorisations supplémentaires, en fonction de votre pipeline de préparation des données. Pour en savoir plus, consultez Accorder l'accès requis à Dataform.

Afficher les préparations de données existantes

Pour afficher la liste des préparations de données existantes, procédez comme suit :

  1. Sur la page BigQuery, accédez au volet Explorateur.
  2. Développez votre projet.
  3. Développez la liste Préparations des données.

Optimiser la préparation des données en les traitant de manière incrémentielle

Pour configurer la façon dont vos données préparées sont écrites dans une table de destination, procédez comme suit.

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez votre préparation des données.

  3. Dans la barre d'outils de votre préparation des données, sélectionnez Plus > Mode écriture.

  4. Sélectionnez l'une des options. Pour en savoir plus, consultez Mode Écriture.

  5. Cliquez sur Enregistrer.

Contribuer à améliorer les suggestions

Vous pouvez contribuer à améliorer les suggestions de Gemini en partageant avec Google les données de requête que vous envoyez aux fonctionnalités disponibles en preview. Pour partager vos données de requête, procédez comme suit :

  1. Ouvrez l'éditeur de préparation des données dans BigQuery.
  2. Dans la barre d'outils de préparation des données, cliquez sur Paramètres Plus.
  3. Sélectionnez Partagez des données pour améliorer Gemini dans BigQuery.

Les paramètres de partage des données s'appliquent à l'ensemble du projet et ne peuvent être définis que par un administrateur du projet disposant des autorisations IAM serviceusage.services.enable et serviceusage.services.list. Pour en savoir plus sur l'utilisation des données dans le programme Testeur de confiance, consultez Programme Testeur de confiance de Gemini pour Google Cloud .

Versions de préparation des données

Vous pouvez choisir de créer une préparation des données à l'intérieur ou à l'extérieur d'un dépôt. La gestion des versions de la préparation des données est différente selon l'emplacement de la préparation des données.

Gestion des versions de la préparation des données dans les dépôts

Les dépôts sont des dépôts Git qui résident dans BigQuery ou chez un fournisseur tiers. Vous pouvez utiliser des espaces de travail dans les dépôts pour effectuer le contrôle des versions sur les préparations de données. Pour en savoir plus, consultez Utiliser le contrôle des versions avec un fichier.

Gestion des versions de la préparation des données en dehors des dépôts

Les préparations de données BigQuery qui ne se trouvent pas dans des dépôts ne permettent pas d'afficher, de comparer ni de restaurer les versions de préparation de données.

Pour obtenir la liste des versions de préparation des données par ordre chronologique, procédez comme suit :

  1. Sur la page BigQuery, accédez au volet Explorateur.
  2. Sélectionnez votre préparation des données.
  3. Cliquez sur Historique des versions.

Télécharger une préparation des données

Pour télécharger une préparation de données dans un fichier YAML, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet et le dossier Préparations des données. Cliquez sur le nom de la préparation des données que vous souhaitez télécharger.

  3. Cliquez sur Télécharger. La préparation des données est enregistrée au format YAML, par exemple NAME data preparation.dp.yaml.

Importer une préparation des données

Pour importer une préparation de données à partir d'un fichier YAML, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, développez votre projet.

  3. Accédez au dossier Préparation des données, puis cliquez sur more_vert Menu > Importer dans "Préparation des données".

  4. Dans la boîte de dialogue Importer la préparation des données, sélectionnez un fichier à importer ou saisissez l'URL de la préparation des données.

  5. Attribuez un nom à la préparation des données.

  6. Sélectionnez un emplacement de préparation des données où les ressources sont gérées et stockées.

  7. Cliquez sur Importer.

Gérer les métadonnées dans Dataplex Universal Catalog

Dataplex Universal Catalog vous permet de stocker et de gérer les métadonnées pour la préparation des données. Les préparations de données sont disponibles dans Dataplex Universal Catalog par défaut, sans configuration supplémentaire.

Vous pouvez utiliser Dataplex Universal Catalog pour gérer les préparations de données dans tous les emplacements BigQuery. La gestion des préparations de données dans Dataplex Universal Catalog est soumise aux quotas et limites de Dataplex Universal Catalog et aux tarifs de Dataplex Universal Catalog.

Dataplex Universal Catalog récupère automatiquement les métadonnées suivantes à partir des préparations de données :

  • Nom de l'élément de données
  • Parent de l'élément de données
  • Emplacement de l'élément de données
  • Type d'élément de données
  • Projet Google Cloud correspondant

Dataplex Universal Catalog enregistre les préparations de données en tant qu'entrées avec les valeurs d'entrée suivantes :

Groupe d'entrées système
Le groupe d'entrées système pour la préparation des données est @dataform. Pour afficher les détails des entrées de préparation des données dans Dataplex Universal Catalog, vous devez afficher le groupe d'entrées système dataform. Pour savoir comment afficher la liste de toutes les entrées d'un groupe d'entrées, consultez Afficher les détails d'un groupe d'entrées dans la documentation Dataplex Universal Catalog.
Type d'entrée système
Le type d'entrée système pour les préparations de données est dataform-code-asset. Pour afficher les détails des préparations de données, vous devez afficher le type d'entrée système dataform-code-asset, filtrer les résultats avec un filtre basé sur les aspects et définir le champ type dans l'aspect dataform-code-asset sur DATA_PREPARATION. Sélectionnez ensuite une entrée de la préparation des données sélectionnée. Pour savoir comment afficher les détails d'un type d'entrée sélectionné, consultez Afficher les détails d'un type d'entrée dans la documentation Dataplex Universal Catalog. Pour savoir comment afficher les détails d'une entrée sélectionnée, consultez Afficher les détails d'une entrée dans la documentation Dataplex Universal Catalog.
Type d'aspect du système
Le type d'aspect système pour la préparation des données est dataform-code-asset. Pour fournir un contexte supplémentaire aux préparations de données dans Dataplex Universal Catalog en annotant les entrées de préparation de données avec des aspects, affichez le type d'aspect dataform-code-asset, filtrez les résultats avec un filtre basé sur les aspects et définissez le champ type dans l'aspect dataform-code-asset sur DATA_PREPARATION. Pour savoir comment annoter des entrées avec des aspects, consultez Gérer les aspects et enrichir les métadonnées dans la documentation Dataplex Universal Catalog.
Type
Le type de canevas de données est DATA_PREPARATION. Ce type vous permet de filtrer les préparations de données dans le type d'entrée système dataform-code-asset et le type d'aspect dataform-code-asset à l'aide de la requête aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION dans un filtre basé sur les aspects.

Pour savoir comment rechercher des éléments, consultez Rechercher des éléments de données dans Dataplex Universal Catalog dans la documentation Dataplex Universal Catalog.

Étapes suivantes