Data-Mesh-Konzepte

Bevor Sie sich die detaillierte Anleitung zum Bereitstellen von Data Mesh mit dem Google Cloud Cortex Framework ansehen, finden Sie auf dieser Seite eine Grundlage dafür, wie relevante Data Mesh-Konzepte im Allgemeinen in einem Google Cloud -Produkt und insbesondere im Kontext des Cortex Framework implementiert werden. Nachdem Sie sich mit den Data Mesh-Konzepten vertraut gemacht haben, finden Sie im Data Mesh-Nutzerhandbuch Informationen zur Data Foundation für das Cortex Framework.

Dataplex Universal Catalog

In der folgenden Tabelle werden Data Mesh-Konzepte in Dataplex Universal Catalog definiert:

Konzept Beschreibung Cortex Framework-Kontext
See Einheit auf oberster Ebene zum Organisieren von Daten in einem Data Mesh. Dataplex Universal Catalog – Lakes verwalten. Eine Datenquelle, z. B. SAP ECC, Salesforce, Google Ads.
Zone Einheit der zweiten Ebene zum Organisieren von Daten in einem Lake. Spezifische Verarbeitungsebenen innerhalb einer Datenquelle, z. B. Rohdaten im Vergleich zu CDC.
Dataplex Universal Catalog-Asset Verweis auf Daten, die in Cloud Storage oder BigQuery gespeichert sind und einer Zone zugeordnet sind. Dies ist ein Verweis auf die Datenressource und nicht auf die Daten selbst. Verweis auf BigQuery-Datasets, die in Zonen registriert sind.
Label Beliebige Schlüssel/Wert-Paare, die auf Lakes oder Zonen angewendet werden können. Ganze Data Lakes oder Zonen (nicht Tabellen oder Spalten) mit Metadaten kennzeichnen, die in Dataplex Universal Catalog aufgerufen oder für benutzerdefinierte Anwendungen verwendet werden können.
Data Catalog Technische geschäftliche Metadaten, die verwendet werden können, um Daten-Assets in einem Warehouse zu ermitteln, zu verstehen oder zu verwalten. Tabellen oder Spalten (nicht Lakes oder Zonen) mit Rich-Metadaten-Tags versehen, die in der Dataplex Universal Catalog-Suche oder in benutzerdefinierten Anwendungen verwendet werden können.
Katalog-Tag-Vorlagen Eine Vorlage, in der die verfügbaren Felder und ihre Typen in einem Tag definiert werden. Dataplex Universal Catalog – Tag-Vorlagen verwalten Definieren Sie eine Reihe von Vorlagen für Anwendungsfälle wie das Taggen von Datenassets mit Geschäftsbereichen.
Katalog-Tag Eine Reihe von Feldern und ihren Werten, die Metadaten für eine Tabelle oder Spalte enthalten. Eine Instanz einer Tag-Vorlage. Sie können einer Tabelle oder Spalte Metadatenwerte hinzufügen, die für das Asset relevant sind, z. B. eine bestimmte Branche.
Glossar für den Katalog Ein Wörterbuch mit Begriffen, die definiert und mit BigQuery-Spalten verknüpft werden können. Dataplex Universal Catalog – Glossare verwalten. Definieren Sie Begriffe oder Akronyme, die in BigQuery-Assets verwendet werden. Beachten Sie, dass dies für die Zukunft geplant ist und nicht unterstützt wird.
Data Lineage Ein Diagramm, das BigQuery-Asset-Abhängigkeiten darstellt. Diese werden nicht vom Cortex Data Mesh definiert, sind aber ein relevantes Dataplex Universal Catalog-Tool, mit dem Nutzer BigQuery-Asset-Datenquellen finden können.
Lineage-Ereignis Ein Zeitpunkt, zu dem ein Vorgang zum Verschieben von Daten zwischen BigQuery-Assets stattgefunden hat. Enthält eine Liste mit Links. Wird automatisch für unterstützte BigQuery- und Composer-Vorgänge erstellt.
Lineage-Link Eine Kante, die Daten darstellt, die im Rahmen eines Lineage-Ereignisses von einem Quell- zu einem Ziel-Asset fließen. Sie kann analysiert werden, um Anwendungsfälle zu unterstützen, die über die in der Console dargestellten Lineage-Visualisierungsdiagramme hinausgehen.

BigQuery

In der folgenden Tabelle werden Data Mesh-Konzepte in BigQuery definiert:

Konzept Beschreibung Cortex Framework-Kontext
Richtlinientaxonomie Eine Hierarchie von Richtlinien-Tags. BigQuery – Policy Tags verwalten Organisieren Sie zugehörige Richtlinien-Tags, die für die Zugriffssteuerung verwendet werden können, in einer Hierarchie mit übernommenen Berechtigungen.
Richtlinien-Tag Ein Tag, das auf bestimmte Spalten in einer BigQuery-Tabelle oder ‑Ansicht angewendet wird. Richtlinien-Tags können auf jeder Ebene der Hierarchie angewendet werden. Auf eine bestimmte Spalte kann nur ein Richtlinien-Tag angewendet werden. Spalten mit Tags versehen, die für die Zugriffssteuerung auf Spaltenebene verwendet werden. Hauptkonten für das Richtlinien-Tag definieren „detaillierte“ oder „nicht maskierte“ Leser, die die Rohdaten der Spalte sehen können.
Datenrichtlinie Richtlinien, die auf ein Richtlinien-Tag angewendet werden und definieren, wie und wer die maskierten Spaltendaten ansehen kann. Mit den Hauptkonten in der Datenrichtlinie werden die „Maskierten Leser“ definiert, die die maskierten Spaltendaten sehen können. Nutzer ohne maskierte oder nicht maskierte Leserberechtigungen können die Spalte nicht abfragen.
Maskierungsregel Regeln, die auf eine Datenrichtlinie angewendet werden und definieren, wie die Daten maskiert werden, z. B. durch Hashing, Anzeigen eines Standardwerts oder der letzten vier Zeichen. Wird situationsabhängig auf sensible Spalten angewendet.
Zeilenzugriffsrichtlinie SQL-Anweisungen, mit denen definiert wird, welche Gruppen Zeilen in Tabellen basierend auf bestimmten Spaltenwerten abfragen können. Wird für die Zugriffssteuerung auf Zeilenebene verwendet, wenn die Steuerung auf Asset- und Spaltenebene nicht ausreicht.

Cortex Data Mesh-Konzept

In der folgenden Tabelle werden spezifische Data Mesh-Konzepte im Cortex Framework definiert:

Konzept Beschreibung Cortex Framework-Kontext
Metadaten-Ressource Metadatenentitäten, die in mehreren BigQuery-Assets wiederverwendet werden können. Beispiele sind Lakes, Catalog Tag Templates und Policy Taxonomies. Es handelt sich dabei um die Metadaten und nicht um die Daten in BigQuery selbst. Definiert wiederverwendbare Ressourcen, um eine konsistente Verwaltung des Cortex Data Mesh zu ermöglichen.
BigQuery-Asset BigQuery-Tabelle oder ‑Ansicht. Vorhandene Cortex BigQuery-Objekte, die durch das Data Mesh geregelt werden.
BigQuery-Asset-Anmerkung Metadaten, die auf eine bestimmte BigQuery-Tabelle oder ‑Ansicht angewendet werden. Dazu gehören Beschreibungen, Zugriffsrichtlinien und Zuordnungen zu Metadatenressourcen. Metadaten mit BigQuery-Assets verknüpfen, um die Auffindbarkeit und Zugriffssteuerung zu ermöglichen.
Ressourcenspezifikation Eine YAML-Datei, in der eine Metadatenressource oder eine BigQuery-Asset-Annotation definiert wird. Der vollständige Satz von Ressourcenspezifikationen enthält die zu bereitstellende Data Mesh-Konfiguration.