Conceptos de la malla de datos

Antes de profundizar en la guía detallada sobre la implementación de Data Mesh con Google Cloud Cortex Framework, esta página proporciona una base sobre cómo se implementan generalmente los conceptos relevantes de Data Mesh dentro de un producto Google Cloud y, específicamente, con el contexto de Cortex Framework. Después de comprender los conceptos de Data Mesh, consulta la Guía del usuario de Data Mesh para la base de datos de Cortex Framework.

Dataplex Universal Catalog

En la siguiente tabla, se definen los conceptos de Data Mesh en Dataplex Universal Catalog:

Concepto Descripción Contexto de Cortex Framework
Lago Es la unidad de nivel superior para organizar los datos dentro de una malla de datos. Administra Dataplex Universal Catalog - Lakes. Una fuente de datos, por ejemplo, SAP ECC, Salesforce o Google Ads.
Zona Es la unidad de segundo nivel para organizar los datos dentro de un lake. Capas de procesamiento específicas dentro de una fuente de datos, como datos sin procesar frente a datos de CDC
Recurso de Dataplex Universal Catalog Es una referencia a los datos almacenados en Cloud Storage o BigQuery que están asociados a una zona. Esta es una referencia al recurso de datos y no a los datos en sí. Referencia a los conjuntos de datos de BigQuery registrados en zonas.
Etiqueta Son pares clave-valor arbitrarios que se pueden aplicar a los lagos o las zonas. Etiqueta lagos o zonas completos (en lugar de tablas o columnas) con metadatos que se pueden ver en Dataplex Universal Catalog o usar para aplicaciones personalizadas.
Data Catalog Son metadatos técnicos de la empresa que se pueden usar para descubrir, comprender o administrar recursos de datos dentro de un almacén. Anota tablas o columnas (en lugar de lakes o zonas) con etiquetas de metadatos enriquecidos que se pueden usar en la búsqueda de Dataplex Universal Catalog o en aplicaciones personalizadas.
Plantillas de etiquetas del catálogo Es una plantilla que define los campos disponibles y sus tipos en una etiqueta. Administra Dataplex Universal Catalog - Tag Templates Define un conjunto de plantillas para usos como etiquetar recursos de datos con líneas de negocios.
Etiqueta del catálogo Es un conjunto de campos y sus valores que contienen metadatos aplicables a una tabla o columna. Es una instancia de una plantilla de etiquetas. Anota una tabla o columna con valores de metadatos relevantes para ese activo, como una línea de negocio en particular.
Glosario del catálogo Es un diccionario de términos que se pueden definir y asociar con las columnas de BigQuery. Administrar Dataplex Universal Catalog - Glosarios Definir los términos o acrónimos que se usan en los activos de BigQuery Ten en cuenta que esto está previsto para el futuro y no se admite.
Linaje de datos Es un gráfico que representa las dependencias de los activos de BigQuery. Sin embargo, no están definidos por la malla de datos de Cortex, pero son una herramienta relevante del catálogo universal de Dataplex para ayudar a los usuarios a descubrir fuentes de datos de activos de BigQuery.
Evento de linaje Es un punto en el tiempo en el que se produjo una operación para transferir datos entre recursos de BigQuery. Contiene una lista de vínculos. Se crean automáticamente para las operaciones compatibles de BigQuery y Composer.
Vínculo de linaje Es una arista que representa el flujo de datos desde un activo de origen a uno de destino como parte de un evento de linaje. Se puede analizar para admitir casos de uso más allá de los gráficos de visualización del linaje que se presentan en la consola.

BigQuery

En la siguiente tabla, se definen los conceptos de Data Mesh en BigQuery:

Concepto Descripción Contexto de Cortex Framework
Taxonomía de políticas Es una jerarquía de etiquetas de política. Administrar BigQuery - Etiquetas de política Organiza las etiquetas de política relacionadas que se pueden usar para el control de acceso en una jerarquía con permisos heredados.
Etiqueta de política Es una etiqueta que se aplica a columnas específicas dentro de una tabla o vista de BigQuery. Se pueden aplicar etiquetas de política en cualquier nivel de la jerarquía. Solo se puede aplicar una etiqueta de política a una columna específica. Anota las columnas con etiquetas que se usan para el control de acceso a nivel de la columna. Las principales en la etiqueta de política definen los lectores "detallados" o "sin enmascarar" que pueden ver los datos sin procesar de la columna.
Política de datos Son las políticas que se aplican a una etiqueta de política y definen cómo y quién puede ver los datos de la columna enmascarada. Los principales de la política de datos definen los "lectores enmascarados" que pueden ver los datos de la columna enmascarada. Cualquier persona que no tenga privilegios de lector enmascarados o no enmascarados no podrá consultar la columna.
Regla de enmascaramiento Son las reglas que se aplican a una política de datos y que definen cómo se enmascaran los datos, por ejemplo, mediante el uso de hash, la visualización de un valor predeterminado, los últimos cuatro caracteres y otros. Se aplica según la situación a las columnas sensibles.
Política de acceso a las filas Son instrucciones SQL que definen qué grupos pueden consultar filas dentro de las tablas según valores de columna específicos. Se usa para el control de acceso a nivel de la fila cuando el control a nivel del activo y de la columna es insuficiente.

Concepto de malla de datos de Cortex

En la siguiente tabla, se definen conceptos específicos de Data Mesh dentro de Cortex Framework:

Concepto Descripción Contexto de Cortex Framework
Recurso de metadatos Son entidades de metadatos que se pueden reutilizar en varios recursos de BigQuery. Algunos ejemplos son los lagos, las plantillas de etiquetas del catálogo y las taxonomías de políticas. Específicamente, se refiere a los metadatos y no a los datos en BigQuery. Define recursos reutilizables para permitir la administración coherente de la malla de datos de Cortex.
Activo de BigQuery Tabla o vista de BigQuery Objetos existentes de Cortex BigQuery que se rigen por la malla de datos.
Anotación de recursos de BigQuery Son los metadatos aplicados a una tabla o vista de BigQuery específica. Esto incluye descripciones, políticas de acceso y asignaciones a recursos de metadatos. Asocia metadatos con los recursos de BigQuery para habilitar el descubrimiento y el control de acceso.
Especificación de recursos (especificación) Un archivo YAML que define un recurso de metadatos o una anotación de recursos de BigQuery. El conjunto completo de especificaciones de recursos codifica la configuración de Data Mesh que se implementará.