Concepts du maillage de données

Avant de vous plonger dans le guide détaillé sur le déploiement du data mesh avec Google Cloud Cortex Framework, cette page vous présente les bases de l'implémentation des concepts de data mesh dans un produit Google Cloud et plus précisément dans le contexte de Cortex Framework. Après avoir compris les concepts de Data Mesh, consultez le Guide de l'utilisateur Data Mesh pour la base de données Cortex Framework.

Catalogue universel Dataplex

Le tableau suivant définit les concepts de maillage de données dans Dataplex Universal Catalog :

Concept Description Contexte de Cortex Framework
Lac Unité de premier niveau pour organiser les données dans un maillage de données. Gérez Dataplex Universal Catalog > Lacs. Une source de données, par exemple SAP ECC, Salesforce, Google Ads.
Zone Unité de deuxième niveau permettant d'organiser les données dans un lac. Couches de traitement spécifiques au sein d'une source de données, comme les données brutes par rapport aux données CDC.
Élément Dataplex Universal Catalog Référence aux données stockées dans Cloud Storage ou BigQuery et associées à une zone. Il s'agit d'une référence à l'élément de données et non aux données elles-mêmes. Référence aux ensembles de données BigQuery enregistrés dans les zones.
Libellé Paires clé/valeur arbitraires pouvant être appliquées aux lacs ou aux zones. Étiquetez des lacs ou des zones entiers (plutôt que des tables ou des colonnes) avec des métadonnées qui peuvent être consultées dans Dataplex Universal Catalog ou utilisées pour des applications personnalisées.
Data Catalog Métadonnées techniques sur l'activité qui peuvent être utilisées pour découvrir, comprendre ou gérer les composants de données dans un entrepôt. Annotez les tables ou les colonnes (plutôt que les lacs ou les zones) avec des tags de métadonnées enrichies qui peuvent être utilisés dans la recherche Dataplex Universal Catalog ou dans des applications personnalisées.
Modèles de tags de catalogue Modèle définissant les champs disponibles et leurs types dans une balise. Gérer les modèles de balises Dataplex Universal Catalog Définissez un ensemble de modèles pour des utilisations telles que le taggage des éléments de données avec des secteurs d'activité.
Balise de catalogue Ensemble de champs et de leurs valeurs contenant des métadonnées applicables à une table ou une colonne. Instance d'un modèle de tag. Annotez une table ou une colonne avec des valeurs de métadonnées pertinentes pour cet élément, comme un secteur d'activité spécifique.
Glossaire du catalogue Dictionnaire de termes pouvant être définis et associés à des colonnes BigQuery. Gérez Dataplex Universal Catalog – Glossaires. Définissez les termes ou acronymes utilisés dans les ressources BigQuery. Notez que cette fonctionnalité est prévue pour l'avenir et n'est pas encore disponible.
Traçabilité des données Graphique représentant les dépendances des éléments BigQuery. Elles ne sont pas définies par le Cortex Data Mesh, mais il s'agit d'un outil de catalogue universel Dataplex pertinent pour aider les utilisateurs à découvrir les sources de données des composants BigQuery.
Événement de traçabilité Point dans le temps où une opération s'est produite pour déplacer des données entre des composants BigQuery. Contient une liste de liens. Créés automatiquement pour les opérations BigQuery et Composer compatibles.
Lien de traçabilité Arête représentant les données qui transitent d'un élément source vers un élément cible dans le cadre d'un événement de traçabilité. Il peut être analysé pour prendre en charge des cas d'utilisation au-delà des graphiques de visualisation de la traçabilité présentés dans la console.

BigQuery

Le tableau suivant définit les concepts de Data Mesh dans BigQuery :

Concept Description Contexte de Cortex Framework
Taxonomie des règles Une hiérarchie de tags avec stratégie. Gérez BigQuery > Tags avec stratégie. Organisez les tags avec stratégie associés qui peuvent être utilisés pour le contrôle des accès dans une hiérarchie avec autorisations héritées.
Tag avec stratégie Tag appliqué à des colonnes spécifiques d'une table ou d'une vue BigQuery. Vous pouvez appliquer des tags avec stratégie à n'importe quel niveau de la hiérarchie. Un seul tag avec stratégie peut être appliqué à une colonne donnée. Annoter les colonnes avec des tags utilisés pour le contrôle des accès au niveau des colonnes. Les comptes principaux associés au tag avec stratégie définissent les lecteurs détaillés ou non masqués qui peuvent consulter les données brutes des colonnes.
Règles relatives aux données Stratégies appliquées à un tag avec stratégie qui définissent comment et qui peut afficher les données de colonne masquées. Les comptes principaux de la stratégie de données définissent les "lecteurs masqués" qui peuvent voir les données de colonne masquées. Toute personne ne disposant pas des droits de lecteur masqué ou non masqué ne pourra pas interroger la colonne.
Règle de masquage Règles appliquées à un règlement sur les données qui définissent la façon dont les données sont masquées (par exemple, hachage, affichage d'une valeur par défaut, des quatre derniers caractères, etc.). Appliqué ponctuellement aux colonnes sensibles.
Règle d'accès aux lignes Instructions SQL qui définissent les groupes pouvant interroger des lignes dans des tables en fonction de valeurs de colonnes spécifiques. Utilisé pour le contrôle des accès au niveau des lignes lorsque le contrôle au niveau des ressources et des colonnes est insuffisant.

Concept de maillage de données Cortex

Le tableau suivant définit des concepts spécifiques au maillage de données dans Cortex Framework :

Concept Description Contexte de Cortex Framework
Ressource de métadonnées Entités de métadonnées réutilisables dans plusieurs composants BigQuery. Par exemple, les lacs, les modèles de tags Catalog et les taxonomies de règles. Il s'agit spécifiquement des métadonnées et non des données dans BigQuery. Définit des ressources réutilisables pour permettre une gestion cohérente du maillage de données Cortex.
Composant BigQuery Table ou vue BigQuery. Objets Cortex BigQuery existants régis par le data mesh.
Annotation des composants BigQuery Métadonnées appliquées à une table ou une vue BigQuery spécifique. Cela inclut les descriptions, les règles d'accès et les mappages vers les ressources de métadonnées. Associez des métadonnées à des composants BigQuery pour permettre la découverte et le contrôle des accès.
Spécification des ressources Fichier YAML définissant une ressource de métadonnées ou une annotation d'élément BigQuery. L'ensemble complet des spécifications de ressources codifie la configuration du maillage de données à déployer.