Passer de Data Catalog au catalogue universel (catalogue Dataplex)

Si vous utilisez Data Catalog, vous pouvez migrer votre contenu et votre utilisation de Data Catalog vers le catalogue universel BigQuery en suivant les étapes décrites dans ce document.

Si vous ne savez pas comment utiliser le catalogue, commencez par le catalogue universel en le configurant comme expérience de catalogue par défaut.

Ce document est destiné aux administrateurs et aux responsables des données.

Le catalogue universel dispose d'une nouvelle interface Web et d'une nouvelle API. La transition vers le catalogue universel permet à vos charges de travail et utilisateurs existants et futurs de bénéficier de ses fonctionnalités améliorées. Pour en savoir plus, consultez la page Présentation du catalogue universel.

Pour comparer le catalogue universel et Data Catalog, consultez Catalogue universel par rapport à Data Catalog.

Avant de commencer la transition, consultez les fonctionnalités non compatibles avec le catalogue universel.

Présentation de la transition

La page Gérer la transition vers Dataplex de la console Google Cloud fournit un point d'accès unique pour gérer la transition.

Cette section décrit les différents scénarios de transition et décrit le processus de transition pour chacun d'eux.

Si vous n'avez pas de métadonnées personnalisées dans Data Catalog ou si vous n'avez jamais utilisé Data Catalog

Si vous utilisez Data Catalog et que vous ne disposez pas de métadonnées personnalisées, telles que des tags, des modèles de tags, des entrées personnalisées ou des groupes d'entrées, ou si vous n'avez jamais utilisé Data Catalog, effectuez la transition en définissant l'UI de catalogue par défaut sur le catalogue universel.

Si vous utilisez des métadonnées personnalisées Data Catalog ou des charges de travail programmatiques

Si vous utilisez Data Catalog avec des métadonnées personnalisées (telles que des tags, des modèles de tags, des entrées personnalisées ou des groupes d'entrées), Dataplex peut importer automatiquement ces métadonnées personnalisées dans le catalogue universel en tant que read-only. Pour activer cette fonctionnalité, vous devez modifier la configuration, comme indiqué dans la phase préparatoire.

La deuxième phase est la phase de transfert, au cours de laquelle l'état actif (read-write) de vos métadonnées personnalisées est transféré vers le catalogue universel. Au cours de cette phase, vous devez également mettre à jour toutes les charges de travail programmatiques (telles que les API, les bibliothèques clientes, les modules Terraform et les commandes Google Cloud CLI) pour interagir avec le catalogue universel.

Vous trouverez ci-dessous des informations plus détaillées sur chaque phase du processus de transition:

  1. Phase préparatoire: effectuez les tâches de configuration nécessaires pour que le contenu de Data Catalog soit disponible simultanément dans le catalogue universel en tant que read-only. Au cours de cette phase, Data Catalog reste la source faisant autorité pour le contenu de vos métadonnées.

    La phase préparatoire comprend les tâches suivantes:

    1. Rendre publics les modèles de tags privés Data Catalog.
    2. Activez les modèles de tags et les tags pour que les métadonnées soient disponibles simultanément dans le catalogue universel.
    3. Configurez les autorisations IAM de Dataplex pour vos métadonnées personnalisées.

    Pour en savoir plus, consultez la section Phase préparatoire.

  2. Phase de transfert: déplacez l'utilisation de votre catalogue et l'état actif (read-write) de vos métadonnées personnalisées vers le catalogue universel.

    La phase de transfert comprend les tâches suivantes:

    1. Définissez l'UI de catalogue par défaut sur le catalogue universel.
    2. Transférez les métadonnées personnalisées de Data Catalog vers le catalogue universel.

      Vous devez attendre au moins 48 heures après avoir activé les modèles de tags et les tags pour pouvoir transférer les métadonnées personnalisées. Ce délai est nécessaire pour le traitement interne.

    3. Mettre à jour les charges de travail programmatique

    Une fois la phase de transfert terminée, le catalogue universel devient la source faisant autorité pour toutes vos métadonnées et vous n'avez plus besoin d'utiliser Data Catalog.

    Pour en savoir plus, consultez la section Phase de transfert.

Rôles requis

Pour obtenir les autorisations nécessaires pour passer de Data Catalog au catalogue universel, accordez les rôles IAM suivants sur la ressource:

  • Mettre à jour des modèles de balise privés en modèles publics : Propriétaire de modèles de tag Data Catalog (roles/datacatalog.tagTemplateOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.tagTemplates.update, qui est requise pour définir les modèles de balises privées comme publics.

  • Activer les modèles de tags et les tags publics pour la disponibilité simultanée des métadonnées dans le catalogue universel : Administrateur de configurations de migration DataCatalog (roles/datacatalog.migrationConfigAdmin)

    Ce rôle prédéfini contient l'autorisation datacatalog.migrationConfig.set, qui est requise pour activer les modèles et les balises de tags.

  • Définir l'UI de catalogue par défaut sur le catalogue universel : Administrateur de configurations de migration DataCatalog (roles/datacatalog.migrationConfigAdmin)

    Ce rôle prédéfini contient l'autorisation datacatalog.migrationConfig.set, qui est requise pour définir l'expérience d'interface utilisateur du catalogue par défaut.

  • Transférer des modèles de tags publics Data Catalog vers le catalogue universel: Propriétaire de modèles de tag Data Catalog (roles/datacatalog.tagTemplateOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.tagTemplates.update, qui est requise pour transférer des modèles de balises publiques.

  • Transférer des groupes d'entrées Data Catalog vers le catalogue universel: Propriétaire du groupe d'entrées DataCatalog (roles/datacatalog.entryGroupOwner)

    Ce rôle prédéfini contient l'autorisation datacatalog.entryGroups.update, qui est nécessaire pour transférer des groupes d'entrées.

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Phase préparatoire

Cette phase implique des tâches visant à rendre le contenu des métadonnées Data Catalog disponible simultanément dans le catalogue universel, en mode read-only.

Voici les points clés à retenir pendant la phase préparatoire:

  • Data Catalog reste la source faisant autorité pour vos métadonnées personnalisées.
  • La page Recherche de Dataplex pointe vers la recherche Data Catalog par défaut, qui n'inclut que les métadonnées Data Catalog et non les métadonnées du catalogue universel.
  • La recherche dans le catalogue universel peut ne pas inclure tous les modèles et tags publics Data Catalog tant que vous n'avez pas terminé la phase préparatoire.

Les groupes d'entrées personnalisées Data Catalog et leurs entrées sont déjà disponibles simultanément dans le catalogue universel en tant que read-only. Lorsque vous activez les modèles et les tags de tags publics lors de la phase préparatoire, leur contenu est disponible simultanément dans le catalogue universel en tant que read-only.

Le tableau suivant présente le mappage entre les ressources Data Catalog et les ressources du catalogue universel lorsque les ressources Data Catalog sont disponibles simultanément dans le catalogue universel:

Mappage entre Data Catalog et le catalogue universel
Ressource Data Catalog Ressource de catalogue universel correspondante Description
Modèle de tag Type d'aspect (global)

Les modèles de tag dans Data Catalog sont des ressources régionales. Lorsque vous activez les modèles de tags, leur contenu est disponible simultanément en tant que types d'aspects globaux dans le catalogue universel. Cela permet de préserver les références interrégionales entre les balises et les modèles de balises. Les définitions des types d'aspects globaux sont répliquées dans toutes les régions. Google Cloud

Les concepts standards tels que Schema sont représentés par des types d'aspects système fournis par Dataplex. Pour en savoir plus, consultez la section Catégories de types d'aspects.

Tag Aspect facultatif Lorsque vous activez les modèles de tags, leurs tags sont disponibles simultanément en tant qu'aspects facultatifs dans le catalogue universel. Pour en savoir plus, consultez la section Catégories d'aspects.
Groupe d'entrées Groupe d'entrées Les groupes d'entrées pour les entrées système sont établis par projet et par région dans le catalogue universel. Les groupes d'entrées créés dans Data Catalog sont disponibles simultanément dans le catalogue universel.
Entrée personnalisée Entrée personnalisée Toutes les entrées personnalisées de Data Catalog sont disponibles simultanément en tant qu'entrées de GenericEntryType dans le catalogue universel. Pour en savoir plus, consultez la section Catégories de types d'entrées.
Entrée système (Google Cloud) Aspect "Entrée système requise" Les métadonnées décrivant les entrées système, telles que Schema pour les tables BigQuery, sont capturées dans les aspects obligatoires des types d'aspects définis par le système.

Convertir des modèles de tags privés Data Catalog en modèles de tags publics

Le catalogue universel n'est pas compatible avec le concept d'aspects privés (correspondant aux balises privées). Par conséquent, les tags et modèles de tags privés ne sont pas disponibles simultanément dans le catalogue universel. Pour propager des modèles de tags et des tags privés dans le catalogue universel, vous devez les rendre publics.

Avant de continuer, examinez la structure des modèles de tags privés pour vous assurer qu'elle et les métadonnées sont cohérentes avec la visibilité des tags publics.

Pour rendre publics des modèles de tag et des tags privés, procédez comme suit:

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Modèles de tags privés.

  4. Cliquez sur Gérer les modèles de tags.

  5. Sur la page Modèles de balises, cliquez sur le modèle de balise privée que vous souhaitez mettre à jour.

  6. Sur la page Détails du modèle, cliquez sur Modifier.

  7. Dans la section Visibilité, sélectionnez Public.

  8. Cliquez sur Mettre à jour.

REST

Pour passer les modèles de tags privés au mode public, utilisez la méthode tagTemplates.patch.

Activer les modèles de tags et les tags publics pour une disponibilité simultanée des métadonnées dans le catalogue universel

Lorsque vous autorisez l'activation, le contenu des tags et des modèles de tags publics Data Catalog est automatiquement et continuellement propagé vers le catalogue universel dans votre Google Cloud organisation ou projet (sans organisation). Les tags et les modèles de tags publics Data Catalog sont propagés vers le catalogue universel en tant que types d'aspects et d'aspects publics, respectivement. Les définitions des types d'aspects globaux sont répliquées dans toutes les régions. Google Cloud

Pour activer les modèles de tags et les tags publics, procédez comme suit:

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Activer.

  4. Cliquez sur Autoriser l'activation.

  5. Dans la boîte de dialogue de confirmation, saisissez le texte affiché, puis cliquez sur Confirmer.

REST

Pour activer les modèles de balises et les balises, utilisez la méthode setConfig.

Pour les Google Cloud organisations et les projets sans organisation, vous pouvez révoquer l'activation initialement fournie en cliquant sur Révoquer l'activation. Lorsque vous annulez l'activation, le processus de propagation des tags et des modèles de tags Data Catalog vers le catalogue universel s'arrête. Les types d'aspects et les aspects du catalogue universel créés par le processus d'activation, mais qui ne sont pas transférés vers le catalogue universel, sont supprimés. La suppression peut prendre jusqu'à 12 heures.

Configurer les autorisations IAM de Dataplex pour vos métadonnées personnalisées

Les types d'aspects du catalogue universel et les groupes d'entrées personnalisées qui représentent les modèles de tags et les groupes d'entrées de Data Catalog n'héritent pas des autorisations IAM d'origine de Data Catalog. Vous devez configurer manuellement les autorisations IAM Dataplex pour ces types d'aspects et ces groupes d'entrées personnalisés.

Par exemple, si vous souhaitez créer des aspects à l'aide d'un type d'aspect propagé (qui représente un modèle de balise Data Catalog), vous devez configurer les autorisations IAM nécessaires pour ce type d'aspect. De même, lorsque vous ingérez des métadonnées personnalisées, pour créer des entrées personnalisées dans un groupe d'entrées personnalisées propagé, vous devez configurer les autorisations IAM nécessaires pour ce groupe d'entrées.

Pour en savoir plus sur la façon dont les autorisations IAM dans Data Catalog correspondent à celles du catalogue universel, consultez la section Mappage des autorisations IAM entre Data Catalog et le catalogue universel.

Pour configurer les autorisations IAM Dataplex nécessaires pour les types d'aspects et les groupes d'entrées personnalisés, procédez comme suit:

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet Autorisations IAM de Dataplex.

  4. Pour configurer les autorisations IAM de Dataplex pour les types d'aspects, cliquez sur Types d'aspects et modèles de tags.

    1. Pour le modèle de balise propagé à partir de Data Catalog, cliquez sur > Autorisations.

    2. Cliquez sur Ajouter des comptes principaux.

    3. Ajoutez un compte principal et attribuez-lui les rôles requis.

    4. Cliquez sur Enregistrer.

  5. Pour configurer les autorisations IAM de Dataplex pour les groupes d'entrées, cliquez sur Groupes d'entrées.

    1. Pour le groupe d'entrée propagé à partir de Data Catalog, cliquez sur > Autorisations.

    2. Cliquez sur Ajouter des comptes principaux.

    3. Ajoutez un compte principal et attribuez-lui les rôles requis.

    4. Cliquez sur Enregistrer.

REST

Pour configurer les autorisations IAM de Dataplex pour les types d'aspects, utilisez la méthode aspectTypes.setIamPolicy.

Pour configurer les autorisations IAM de Dataplex pour les groupes d'entrées, utilisez la méthode entryGroups.setIamPolicy.

Phase de transfert

Cette phase implique des tâches visant à déplacer l'état actif (read-write) de vos métadonnées personnalisées Data Catalog vers le catalogue universel.

Voici les points clés à retenir pendant la phase de transfert:

  • La page de recherche de Dataplex pointe vers la recherche dans le catalogue universel par défaut.
  • Vous pouvez découvrir et lire les métadonnées de Data Catalog et du catalogue universel dans le catalogue universel.
  • Pour mettre à jour les métadonnées dans la console Google Cloud, vous êtes redirigé vers leur source. Par exemple, si vous mettez à jour des modèles de tags Data Catalog, vous êtes redirigé vers la page des modèles de tags dans Data Catalog.

Définir l'UI de catalogue par défaut sur le catalogue universel

Si vous définissez l'UI de catalogue par défaut sur le catalogue universel, les conséquences seront les suivantes:

  • Lorsque vous accédez à la page Recherche de Dataplex dans la console Google Cloud, la recherche dans le catalogue universel (catalogue Dataplex) s'affiche par défaut. La recherche dans le catalogue universel s'effectue dans le catalogue universel et permet de trouver tous vos contenus de métadonnées, y compris les contenus créés dans le catalogue universel et les contenus importés depuis Data Catalog.

    La recherche Data Catalog ne trouve que du contenu Data Catalog, et non du contenu du catalogue universel. Nous vous recommandons donc d'utiliser la recherche dans le catalogue universel.

  • L'interface Web vous invite à créer des ressources dans le catalogue universel (catalogue Dataplex). Par exemple, l'option Créer des types d'aspects est définie par défaut au lieu de Créer des modèles de tags, et Créer un groupe d'entrées (catalogue Dataplex) au lieu de Créer un groupe d'entrées (catalogue Data Catalog).

  • Définir l'UI de catalogue par défaut sur le catalogue universel est généralement une opération à sens unique. Toutefois, Dataplex vous permet de revenir sur les modifications dans des cas exceptionnels, par exemple lorsque vous souhaitez rétablir l'UI de catalogue par défaut sur Data Catalog. Si vous annulez les modifications, vous ne pourrez plus accéder à aucun contenu créé dans le catalogue universel, dans l'interface Web de Data Catalog.

Pour définir l'UI de catalogue par défaut sur le catalogue universel, procédez comme suit:

Console

  1. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  2. Cliquez sur Gérer la transition vers Dataplex.

  3. Cliquez sur l'onglet UI de catalogue par défaut.

  4. Cliquez sur Définir l'UI de catalogue par défaut sur le catalogue Dataplex.

REST

Pour définir l'UI de catalogue par défaut sur le catalogue universel, utilisez la méthode setConfig.

Transférer des métadonnées personnalisées Data Catalog vers le catalogue universel

Vous pouvez transférer les modèles de tags publics Data Catalog (que vous avez activés) et les groupes d'entrées personnalisées vers le catalogue universel. Assurez-vous de transférer chaque modèle de balise et chaque groupe d'entrées personnalisées séparément.

Le processus de transfert est résumé ci-dessous:

  • Effet

    • Transfère l'état actif des ressources de Data Catalog vers le catalogue universel. Après le transfert, pour modifier la ressource ou accéder à son état actuel, vous devez utiliser le catalogue universel.
  • Modifications apportées au contenu et au flux des données

    • Marque la ressource comme read-only dans Data Catalog.
    • Indique que la ressource est read-write dans le catalogue universel.
    • Arrêt de la disponibilité simultanée de cette ressource.
  • Dépendances

    • Le transfert d'un modèle de balise entraîne également le transfert de toutes les balises qui l'utilisent.
    • Le transfert des groupes d'entrées entraîne celui de toutes les entrées qu'ils contiennent.
    • Le transfert des entrées n'affecte pas l'état de transfert de leurs tags et modèles de tags respectifs.

Avant le transfert, pour modifier le contexte métier d'une entrée (par exemple, overview, contacts), vous pouvez utiliser à la fois les API Data Catalog et Dataplex. Après le transfert, vous ne devez utiliser que l'API Dataplex.

Vous trouverez ci-dessous les opérations autorisées pour une entrée Data Catalog personnalisée taguée, en fonction de l'état de transfert du groupe d'entrées personnalisées et du modèle de tag associés:

  • Lorsqu'un modèle de tag est actif dans Data Catalog, vous pouvez l'utiliser pour créer des tags. Une fois que vous avez transféré le modèle de tag vers le catalogue universel, vous ne pouvez plus l'utiliser pour créer des tags dans Data Catalog.
  • Vous ne pouvez créer des aspects à l'aide de types d'aspects propagés à partir de modèles de balises Data Catalog qu'après avoir transféré les modèles de balises.

Pour transférer les modèles de tags et les groupes d'entrées personnalisées Data Catalog vers le catalogue universel, procédez comme suit:

Console

  1. Assurez-vous qu'au moins 48 heures se sont écoulées après l'activation avant de transférer les modèles de tags Data Catalog vers le catalogue universel. Ce délai est nécessaire pour le traitement interne.

  2. Dans la console Google Cloud, accédez à la page Catalogue de Dataplex.

    Accéder au catalogue

  3. Cliquez sur Gérer la transition vers Dataplex.

  4. Cliquez sur l'onglet Transférer vers Dataplex.

  5. Pour transférer des modèles de tags Data Catalog vers le catalogue universel, cliquez sur Afficher les types d'aspects et les modèles de tags.

    1. Sélectionnez les modèles de balises que vous souhaitez transférer.

    2. Cliquez sur Transférer.

    3. Dans la boîte de dialogue de confirmation, cliquez sur Confirmer.

  6. Pour transférer des groupes d'entrées personnalisés Data Catalog vers le catalogue universel, cliquez sur Afficher les groupes d'entrées.

    1. Sélectionnez les groupes d'entrées que vous souhaitez transférer.

    2. Cliquez sur Transférer.

    3. Dans la boîte de dialogue de confirmation, cliquez sur Confirmer.

REST

Assurez-vous qu'au moins 48 heures se sont écoulées après l'activation avant de transférer les modèles de tags Data Catalog vers le catalogue universel. Ce délai est nécessaire pour le traitement interne.

Pour transférer les modèles de tags et les groupes d'entrées personnalisées Data Catalog vers le catalogue universel, utilisez la méthode tagTemplates.patch.

Une fois la phase de transfert terminée, le catalogue universel devient la source faisant autorité pour toutes vos métadonnées, et vous n'avez plus besoin d'utiliser Data Catalog.

Mettre à jour les charges de travail programmatique

Le catalogue universel est fourni avec une nouvelle API, des bibliothèques clientes, des modules Terraform et des commandes Google Cloud CLI. Par conséquent, vous devez mettre à jour toutes les charges de travail existantes qui utilisent de manière programmatique Data Catalog vers le catalogue universel. Consultez les exemples de code pour Dataplex.

Assurez-vous d'aligner la mise à jour des charges de travail programmatique sur le transfert des ressources dépendantes, telles que les modèles de tags et les groupes d'entrées personnalisés. Cela est nécessaire, car le transfert déplace l'état actif (read-write) d'une ressource de Data Catalog vers le catalogue universel.

Voici un exemple de séquence de mise à jour des charges de travail programmatiques pour interagir avec le catalogue universel, coordonnée avec le transfert des ressources dépendantes:

  1. Si vos charges de travail peuvent tolérer une cohérence à terme, déplacez les opérations read des charges de travail vers le catalogue universel.

  2. Déplacez les charges de travail effectuant des opérations de taggage write vers le catalogue universel en coordination avec le transfert de leurs modèles de tags correspondants.

  3. Déplacez les charges de travail effectuant des opérations write d'ingestion personnalisées vers le catalogue universel, en coordination avec le transfert des groupes d'entrées personnalisées respectifs.

Si vous devez dissocier les charges de travail de mise à jour et le transfert des ressources correspondantes, envisagez d'implémenter une logique dans les charges de travail pour acheminer read-write vers Data Catalog ou le catalogue universel en fonction de l'état du transfert de ressources. Par conséquent, les charges de travail fonctionneront indépendamment de l'état de transfert de la ressource associée.

Étape suivante