Dataplex Universal Catalog fournit une plate-forme centralisée pour stocker, gérer et accéder à vos métadonnées. Ce document décrit les fonctionnalités de gestion des métadonnées de Dataplex Universal Catalog.
Dataplex Universal Catalog fournit un inventaire unifié des ressources Google Cloud et sur site. Les métadonnées des ressources Google Cloud sont automatiquement récupérées et stockées par Dataplex Universal Catalog. Vous pouvez également importer vos propres métadonnées pour les ressources tierces dans Dataplex Universal Catalog.
Vous pouvez enrichir votre inventaire avec des métadonnées métier et techniques supplémentaires qui capturent le contexte et les connaissances sur vos ressources. Vous pouvez également rechercher et découvrir vos données dans l'ensemble de l'organisation, et activer la gouvernance des données sur vos composants de données.
Vous pouvez définir Dataplex Universal Catalog comme catalogue par défaut. Si vous utilisez Data Catalog, transférez votre contenu et votre utilisation Data Catalog autonomes vers Dataplex Universal Catalog. Pour en savoir plus, consultez Passer de Data Catalog à Dataplex Universal Catalog.
Fonctionnement de la gestion des métadonnées
Les fonctionnalités de gestion des métadonnées dans Dataplex Universal Catalog sont basées sur les concepts suivants :
- Entrée
Une entrée représente un élément de données. Cela ressemble aux entrées du catalogue de données.
Exemple : Une table BigQuery nommée
test-project.sales_data.customer_orders
est représentée sous forme d'entrée.Une colonne d'une entrée représente une sous-section spécifique d'un asset de données, comme une colonne unique dans une table BigQuery ou un champ dans un fichier JSON. Les colonnes vous permettent d'associer des métadonnées à des champs individuels d'une entrée, et pas seulement à l'entrée dans son ensemble. Vous ne définissez pas directement les colonnes. Elles sont créées lorsque vous associez un aspect de type
schema
à une entrée. Les colonnes sont également appelées "chemins".Exemple : Pour décrire le champ
email_address
dans l'entréecustomer_orders
comme contenant des informations permettant d'identifier personnellement l'utilisateur, vous pouvez associer un aspect à la colonneemail_address
.Pour en savoir plus sur les entrées, consultez Entrées.
- Aspect
Un aspect est un ensemble de champs de métadonnées associés. Vous pouvez associer un aspect à une entrée pour la décrire dans son ensemble. La plupart des métadonnées sont décrites par des aspects dans une entrée. Cela s'apparente aux tags dans Data Catalog. Toutefois, les aspects sont stockés dans les entrées et non en tant que ressources autonomes.
Exemple : Pour définir toutes les colonnes de l'entrée
customer_orders
, telles queorder_id
,order_date
etemail_address
, vous pouvez associer un aspectschema
à l'entréecustomer_orders
. Pour spécifier que la colonneemail_address
contient une adresse e-mail, vous pouvez associer un aspectschema
à la colonneemail_address
.Pour en savoir plus sur les aspects, consultez Aspects.
- Type d'entrée
Un type d'entrée est un modèle permettant de créer des entrées. Il établit les éléments de métadonnées essentiels, qui sont présentés sous la forme d'une liste d'aspects requis pour les entrées de ce type. Un type d'entrée spécifie les types d'aspects requis pour un élément de données spécifique.
Exemple : Pour vous assurer que toutes les entrées contiennent les métadonnées requises, vous pouvez créer un type d'entrée appelé
StandardOperationalTable
qui exige qu'un aspectOwnerInfo
soit associé à toute nouvelle entrée de ce type.Pour en savoir plus sur les types d'entrées, consultez Types d'entrées.
- Type d'aspect
Un type d'aspect est un modèle réutilisable pour les aspects. Chaque aspect est une instance d'un type d'aspect. Cela s'apparente aux modèles de tags dans Data Catalog.
Exemple : Pour définir un modèle réutilisable pour les informations de contact, vous pouvez définir un type d'aspect nommé
ContactInfo
avec des champs pourowner_name
,email
etsupport_team
. Vous pouvez ensuite créer des aspectsContactInfo
à partir de ce modèle et les associer à des entrées ou des colonnes.Pour en savoir plus sur les types d'aspects, consultez Types d'aspects.
- Groupe d'entrées
Un groupe d'entrées est un conteneur d'entrées qui sert d'unité de gestion pour ces entrées. Par exemple, utilisez un groupe d'entrées pour configurer le contrôle des accès Identity and Access Management, l'attribution du projet ou l'emplacement des entrées du groupe d'entrées. Cela s'apparente aux groupes d'entrées dans Data Catalog.
Exemple : Une équipe financière souhaite gérer les autorisations pour toutes ses tables en même temps. Il peut créer un groupe d'entrées nommé
production_finance_data
et y inclure les entrées des tablescustomer_orders
,quarterly_revenue
etemployee_salaries
.Pour en savoir plus sur les groupes d'entrées, consultez Groupes d'entrées.
Figure 1. Entrées et groupes d'entrées Figure 2. Types d'aspects et types d'entrées
Comparaison entre Dataplex Universal Catalog et Data Catalog
Dataplex Universal Catalog fournit des fonctionnalités intégrées pour gérer vos métadonnées. Le stockage des métadonnées et les méthodes d'API sont intégrés à l'API Dataplex.
Voici les principales fonctionnalités de gestion des métadonnées dans Dataplex Universal Catalog :
Métamodèle plus robuste
- les entrées saisies au clavier ; Vous pouvez appliquer des normes minimales pour les métadonnées en définissant le contenu de métadonnées requis pour les entrées personnalisées.
- Métamodèle configurable par l'utilisateur pour les entrées personnalisées, qui permet de rendre l'ingestion personnalisée plus robuste et d'améliorer la cohérence et l'exhaustivité des métadonnées personnalisées.
- Prise en charge d'une plus grande variété et complexité de métadonnées, y compris la prise en charge des structures d'imbrication telles que les listes, les maps et les tableaux.
Amélioration de l'évolutivité, y compris la possibilité d'interagir avec toutes les métadonnées associées à une entrée par le biais d'opérations CRUD atomiques uniques et la possibilité de récupérer plusieurs annotations de métadonnées associées dans les réponses de recherche ou de liste.
Le tableau suivant compare les fonctionnalités de gestion des métadonnées de Dataplex Universal Catalog et de Data Catalog :
Fonctionnalité | Catalogue universel Dataplex | Data Catalog |
---|---|---|
Sources Google Cloud acceptées | Toutes les sources décrites dans la section Sources Google Cloud prises en charge de ce document. | Toutes les sources décrites dans Entrées et groupes d'entrées. |
Ingestion de sources personnalisées | Ingestion dans des entrées personnalisées avec une structure régie, définie par des types d'entrée. Les entrées et groupes d'entrées personnalisés Data Catalog sont disponibles dans Dataplex Universal Catalog sous le type d'entrée | Ingestion dans des entrées personnalisées génériques. |
Enrichissement des métadonnées | Le contexte des métadonnées pour les entrées est capturé à l'aide de glossaires d'entreprise, d'aspects et de types d'aspects. | Le contexte des métadonnées des entrées est capturé à l'aide de glossaires d'entreprise, de tags et de modèles de tag. |
Rechercher | La recherche est effectuée sur les éléments suivants :
Les résultats de recherche n'incluent que les ressources appartenant à la même organisation et au même périmètre VPC-SC que le projet dans lequel la recherche est effectuée. Lorsque vous utilisez la console Google Cloud , il s'agit du projet qui est sélectionné dans la console. Notez que pour rechercher des entrées, vous devez disposer d'au moins l'un des rôles IAM suivants au niveau du projet utilisé pour la recherche : administrateur de catalogue Dataplex, éditeur de catalogue Dataplex ou lecteur de catalogue Dataplex. Les autorisations applicables aux résultats de recherche sont vérifiées indépendamment du projet sélectionné. |
La recherche est effectuée sur les éléments suivants :
|
Traçabilité des données |
La traçabilité des données récupère les détails des entrées pour les nœuds d'éléments à l'aide de l'API Dataplex. La console Google Cloud affiche les aspects associés. |
La traçabilité des données récupère les détails des entrées pour les nœuds d'éléments à l'aide de l'API Data Catalog. |
Glossaires d'entreprise |
Le glossaire d'entreprise vous permet de créer une taxonomie pour les termes commerciaux et de les associer à des composants et des colonnes de données. Vous pouvez utiliser la recherche pour découvrir les composants associés à un terme. |
Le glossaire d'entreprise vous permet de créer une taxonomie pour les termes métier et de les associer à des colonnes. Vous pouvez utiliser la recherche pour découvrir les composants associés à un terme. |
Le tableau suivant décrit la correspondance entre les ressources de Dataplex Universal Catalog et celles de Data Catalog :
Ressource Dataplex Universal Catalog | Ressource Data Catalog | Description |
---|---|---|
Type d'aspect (global ) |
Modèle de tag public | Les modèles de tags sont des ressources régionales. Toutefois, vous pouvez les utiliser pour créer des tags dans plusieurs régions. Les modèles de tags correspondent aux types d'aspect global dans Dataplex Universal Catalog. |
Aspect facultatif | Tag public | Les tags publics dans Data Catalog correspondent à des aspects facultatifs dans Dataplex Universal Catalog. |
Groupe d'entrées | Groupe d'entrées | Pour les sources Google Cloud , les groupes d'entrées système tels que @bigquery sont établis par projet dans Dataplex Universal Catalog. |
Aspects nécessitant une entrée personnalisée | Entrée personnalisée | Data Catalog et Dataplex Universal Catalog partagent des concepts similaires pour les entrées personnalisées. Les propriétés d'entrée standards sont modélisées en tant qu'aspects requis dans Dataplex Universal Catalog. |
Aspects nécessitant une entrée système | Entrée système (Google Cloud) | Les métadonnées décrivant les entités intégrées, telles que Schema pour les tables BigQuery, sont capturées dans les aspects requis des types d'aspect définis par le système. |
Glossaires d'entreprise | Glossaires d'entreprise | Utilisez des glossaires pour créer une taxonomie de termes commerciaux qui normalise le contexte commercial dans toute l'entreprise. |
Pour en savoir plus sur les fonctionnalités disponibles dans Data Catalog, mais non compatibles avec Dataplex Universal Catalog, consultez la section Fonctionnalités de gestion des métadonnées non compatibles avec Dataplex Universal Catalog de ce document.
Pour les utilisateurs existants de Data Catalog
Si vous utilisez déjà Data Catalog, notez les points suivants :
- Les entrées personnalisées, le contexte de présentation, les glossaires et les groupes d'entrées que vous avez créés dans Data Catalog sont disponibles dans Dataplex Universal Catalog.
- En tant qu'administrateur, vous pouvez choisir de rendre le contenu des tags et des modèles de tags Data Catalog disponible simultanément dans Dataplex Universal Catalog. Pour en savoir plus, consultez Passer de Data Catalog à Dataplex Universal Catalog.
- Lorsque vous recherchez des éléments de données dans Dataplex Universal Catalog, les métadonnées créées directement dans Dataplex Universal Catalog et celles importées depuis Data Catalog dans Dataplex Universal Catalog sont incluses.
- Lorsque vous recherchez des éléments de données dans Data Catalog, seules les métadonnées créées dans Data Catalog sont incluses.
- Les descriptions de groupes d'entrées dans Data Catalog qui dépassent 1 024 caractères sont tronquées à 1 024 caractères dans Dataplex Universal Catalog.
- En tant qu'administrateur, pour rendre les glossaires et les liens associés entre les termes métier et les colonnes que vous avez créés dans Data Catalog disponibles dans Dataplex Universal Catalog, suivez la procédure de transition.
Pour savoir comment transférer votre contenu et votre utilisation Data Catalog autonomes vers Dataplex Universal Catalog, consultez Passer de Data Catalog à Dataplex Universal Catalog.
Sources acceptées
- Découverte automatique des données Cloud Storage
- Les métadonnées des sources Google Cloud suivantes sont automatiquement ingérées dans Dataplex Universal Catalog :
- Échanges et fiches BigQuery Sharing (anciennement Analytics Hub)
- Ensembles de données, tables, modèles, routines, connexions et ensembles de données associés BigQuery
- Instances, clusters et tables Bigtable (y compris les détails des familles de colonnes)
- Dépôts Dataform et composants de code
- Instances, bases de données, schémas, tables et vues Cloud SQL : consultez Activer l'intégration Cloud SQL.
- Services, bases de données et tables Dataproc Metastore
- Sujets Pub/Sub
- Instances, bases de données, tables et vues Spanner
- Modèles, ensembles de données, groupes de caractéristiques, vues de caractéristiques et instances de boutique en ligne Vertex AI
Pour importer des métadonnées depuis une source tierce dans Dataplex Universal Catalog, vous pouvez utiliser un pipeline de connectivité gérée.
Contraintes liées au projet et à l'emplacement
Les ressources de catalogue dans Dataplex Universal Catalog sont hébergées dans différents projets et emplacements. Les limites suivantes s'appliquent :
Lieu :
- L'emplacement d'une entrée doit correspondre à celui du type d'entrée, ou le type d'entrée doit être
global
. - Un aspect ajouté à une entrée doit être basé sur un type d'aspect stocké au même emplacement que l'entrée, ou le type d'aspect doit être
global
. - Un type d'entrée doit être composé de types d'aspect stockés au même emplacement que le type d'entrée.
- L'emplacement d'une entrée doit correspondre à celui du type d'entrée, ou le type d'entrée doit être
Projet :
- Si un type d'entrée fait référence à des types d'aspect personnalisés, ces types d'aspect doivent se trouver au même emplacement et dans le même projet que le type d'entrée.
Fonctionnalités de gestion des métadonnées non compatibles avec Dataplex Universal Catalog
Les fonctionnalités suivantes disponibles dans Data Catalog ne sont pas compatibles avec Dataplex Universal Catalog :
- Le concept d'aspects et de types d'aspects privés (qui correspondent aux tags et modèles de tags privés dans Data Catalog) n'existe pas dans Dataplex Universal Catalog.
- La recherche de tags de règles n'est pas compatible avec la recherche Dataplex Universal Catalog. Par conséquent, les prédicats
policytag
etpolicytagid
ne fonctionnent pas dans la recherche Dataplex Universal Catalog. - Lorsque vous importez des groupes d'entrées personnalisées, des entrées personnalisées, des modèles de tags et des tags Data Catalog dans Dataplex Universal Catalog, leurs autorisations d'origine ne sont pas conservées. Vous devez configurer explicitement les autorisations IAM pour les métadonnées copiées avant de les utiliser.
- Terraform n'est pas compatible avec la gestion des aspects et des entrées personnalisées. Vous pouvez gérer vos métadonnées personnalisées à grande échelle de manière programmatique à l'aide d'un pipeline de connectivité géré ou des méthodes d'API d'importation de métadonnées. (La compatibilité de Terraform avec les groupes d'entrées, les types d'entrées et les types d'aspects est disponible. Pour en savoir plus, consultez Provisionner des ressources Dataplex Universal Catalog avec Terraform.)
- L'envoi des résultats d'inspection de Sensitive Data Protection directement au catalogue dans Dataplex Universal Catalog n'est pas pris en charge. Vous pouvez plutôt envoyer les résultats de l'inspection de la protection des données sensibles à Data Catalog, puis transférer les résultats vers Dataplex Universal Catalog.
- Vous ne pouvez pas lister les types d'entrées et les types d'aspects dans plusieurs projets à l'aide de l'API. Vous ne pouvez limiter la requête de liste qu'à un seul projet.
- L'enregistrement de lacs, de zones, d'éléments et d'entités en tant qu'entrées Dataplex Universal Catalog n'est pas pris en charge. Cela signifie que les métadonnées Data Catalog associées aux lacs, aux zones, aux composants et aux entités ne sont pas transférées vers le catalogue dans Dataplex Universal Catalog. De plus, lorsque vous utilisez la recherche Dataplex Universal Catalog, la recherche de zones et d'entités n'est pas prise en charge, et le filtrage par lacs et zones n'est pas non plus pris en charge. Vous pouvez utiliser les lacs et les zones indépendamment du catalogue dans Dataplex Universal Catalog.
- La recherche d'administrateurs, qui garantit un rappel complet, n'est pas disponible. Vous pouvez exporter les métadonnées vers Cloud Storage, puis les interroger dans BigQuery.
Pour comparer les fonctionnalités et les ressources compatibles avec Dataplex Universal Catalog et Data Catalog, consultez la section Dataplex Universal Catalog et Data Catalog de ce document.
Tarifs
Dataplex Universal Catalog utilise le SKU de stockage de métadonnées pour facturer le stockage de métadonnées. Pour en savoir plus, consultez les tarifs de Dataplex Universal Catalog.
L'utilisation des éléments suivants est gratuite :
- Créer et gérer des ressources de catalogue dans Dataplex Universal Catalog
- Appels d'API Search pour Dataplex Universal Catalog
- Requêtes de recherche effectuées sur la page Dataplex Universal Catalog de la consoleGoogle Cloud
Étapes suivantes
- Découvrez comment rechercher des ressources dans Dataplex Universal Catalog.
- Découvrez comment gérer les composants et enrichir les métadonnées.
- Apprenez à gérer les entrées et ingérer des sources personnalisées.
- En savoir plus sur la transition de Data Catalog vers Dataplex Universal Catalog
- Découvrez comment migrer des glossaires vers Dataplex Universal Catalog.