Dataplex Universal Catalog proporciona una plataforma central para almacenar, gestionar y acceder a tus metadatos. En este documento se describen las funciones de gestión de metadatos de Dataplex Universal Catalog.
Dataplex Universal Catalog proporciona un inventario unificado de recursos Google Cloud y locales. Dataplex Universal Catalog recupera y almacena automáticamente los metadatos de los Google Cloud recursos. También puedes incorporar tus propios metadatos de recursos de terceros a Dataplex Universal Catalog.
Puede enriquecer su inventario con metadatos empresariales y técnicos adicionales que capturen el contexto y el conocimiento sobre sus recursos. También puedes buscar y descubrir tus datos en toda la organización, así como habilitar la gobernanza de datos en tus recursos de datos.
Puedes definir Dataplex Universal Catalog como tu experiencia de catálogo predeterminada. Si usas Data Catalog, migra tu contenido y uso de Data Catalog independiente a Dataplex Universal Catalog. Para obtener más información, consulta Pasar de Data Catalog a Dataplex Universal Catalog.
Cómo funciona la gestión de metadatos
Las funciones de gestión de metadatos de Dataplex Universal Catalog se basan en los siguientes conceptos:
- Entrada
Una entrada representa un recurso de datos. Es similar a las entradas de Data Catalog.
Por ejemplo, una tabla de BigQuery llamada
test-project.sales_data.customer_orders
se representa como una entrada.Una columna de una entrada representa una subsección específica de un recurso de datos, como una sola columna de una tabla de BigQuery o un campo de un archivo JSON. Las columnas te permiten adjuntar metadatos a campos concretos de una entrada, no solo a la entrada en su conjunto. No se definen columnas directamente, sino que se crean cuando se adjunta un aspecto de tipo
schema
a una entrada. Las columnas también se denominan "rutas".Por ejemplo, para describir el campo
email_address
de la entradacustomer_orders
como que contiene información personal identificable (IPI), puede adjuntar un aspecto a la columnaemail_address
.Para obtener más información sobre las entradas, consulta Entradas.
- Aspecto
Un aspecto es un conjunto de campos de metadatos relacionados. Puedes asociar un aspecto a una entrada para describir la entrada en su conjunto. La mayoría de los metadatos se describen mediante aspectos de una entrada. Es similar a las etiquetas del catálogo de datos. Sin embargo, los aspectos se almacenan en las entradas y no como recursos independientes.
Ejemplo: Para definir todas las columnas de la entrada
customer_orders
, comoorder_id
,order_date
yemail_address
, puedes adjuntar un aspectoschema
a la entradacustomer_orders
. Para especificar que la columnaemail_address
contiene una dirección de correo electrónico, puedes adjuntar un aspectoschema
a la columnaemail_address
.Para obtener más información sobre los aspectos, consulta Aspectos.
- Tipo de entrada
Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, que se describen como una lista de aspectos obligatorios para las entradas de este tipo. Un tipo de entrada especifica qué tipos de aspectos son obligatorios para un recurso de datos concreto.
Por ejemplo, para asegurarse de que todas las entradas tengan los metadatos necesarios, puede crear un tipo de entrada llamado
StandardOperationalTable
que requiera que se adjunte un aspectoOwnerInfo
a cualquier entrada nueva de este tipo.Para obtener más información sobre los tipos de entrada, consulta Tipos de entrada.
- Tipo de aspecto
Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto es una instancia de un tipo de aspecto. Es similar a las plantillas de etiquetas de Data Catalog.
Ejemplo: Para definir una plantilla reutilizable de información de contacto, puedes definir un tipo de aspecto llamado
ContactInfo
con campos paraowner_name
,email
ysupport_team
. Después, puedes crear aspectos deContactInfo
a partir de esta plantilla y adjuntarlos a entradas o columnas.Para obtener más información sobre los tipos de aspectos, consulta Tipos de aspectos.
- Grupo de entradas
Un grupo de entradas es un contenedor de entradas que sirve como unidad de gestión de estas entradas. Por ejemplo, puedes usar un grupo de entradas para configurar el control de acceso de Gestión de Identidades y Accesos, la atribución de proyectos o la ubicación de las entradas del grupo. Es similar a los grupos de entradas de Data Catalog.
Ejemplo: Un equipo de finanzas quiere gestionar los permisos de todas sus hojas de cálculo a la vez. Pueden crear un grupo de entradas llamado
production_finance_data
e incluir en él las entradas de la tablacustomer_orders
, la tablaquarterly_revenue
y la tablaemployee_salaries
.Para obtener más información sobre los grupos de entradas, consulta Grupos de entradas.
Imagen 1. Entradas y grupos de entrada Imagen 2. Tipos de aspectos y tipos de entradas
Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog ofrece funciones integradas para gestionar tus metadatos. El almacenamiento de metadatos y los métodos de la API están integrados en la API de Dataplex.
Estas son las principales funciones de gestión de metadatos de Dataplex Universal Catalog:
Metamodelo más sólido
- Entradas escritas. Puede aplicar estándares de metadatos mínimos definiendo el contenido de metadatos obligatorio para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la ingestión personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
- Compatibilidad con una mayor variedad y complejidad de metadatos, incluida la compatibilidad con estructuras anidadas, como listas, mapas y arrays.
Se ha mejorado la escalabilidad, incluida la capacidad de interactuar con todos los metadatos asociados a una entrada mediante operaciones CRUD atómicas únicas y la capacidad de obtener varias anotaciones de metadatos asociadas en respuestas de búsqueda o de lista.
En la siguiente tabla se comparan las funciones de gestión de metadatos de Dataplex Universal Catalog y Data Catalog:
Función | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fuentes Google Cloud admitidas | Todas las fuentes descritas en la sección Fuentes admitidas Google Cloud de este documento. | Todas las fuentes descritas en Entradas y grupos de entrada. |
Ingestión de fuentes personalizadas | Ingestión en entradas personalizadas con una estructura controlada, definida por tipos de entrada. Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en Dataplex Universal Catalog con el tipo de entrada | Ingestión en entradas personalizadas genéricas. |
Enriquecimiento de metadatos | El contexto de los metadatos de las entradas se captura mediante glosarios empresariales, aspectos y tipos de aspectos. | El contexto de los metadatos de las entradas se captura mediante glosarios empresariales, etiquetas y plantillas de etiquetas. |
Buscar | La búsqueda se realiza en los siguientes elementos:
Los resultados de búsqueda solo incluyen los recursos que pertenecen a la misma organización y al mismo perímetro de los controles de servicio de VPC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consola Google Cloud , este es el proyecto seleccionado en la consola. Ten en cuenta que, para buscar entradas, debes tener al menos uno de los siguientes roles de gestión de identidades y accesos en el proyecto que se utiliza para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Lector de Dataplex Catalog. Los permisos de los resultados de búsqueda se comprueban independientemente del proyecto seleccionado. |
La búsqueda se realiza en los siguientes elementos:
|
Linaje de datos |
El linaje de datos obtiene los detalles de las entradas de los nodos de recursos mediante la API de Dataplex. La consola Google Cloud muestra los aspectos adjuntos. |
Data Lineage obtiene los detalles de las entradas de los nodos de recursos mediante la API de Data Catalog. |
Glosarios empresariales |
El glosario empresarial le permite crear una taxonomía de términos empresariales y asociarlos a recursos y columnas de datos. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
El glosario empresarial te permite crear una taxonomía de términos empresariales y asociarlos a columnas. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
En la siguiente tabla se describe cómo se corresponden los recursos de Dataplex Universal Catalog con los de Data Catalog:
Recurso de Dataplex Universal Catalog | Recurso de Data Catalog | Descripción |
---|---|---|
Tipo de aspecto (global ) |
Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlas para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de global aspect
de Dataplex Universal Catalog. |
Aspecto opcional | Etiqueta pública | Las etiquetas públicas de Data Catalog corresponden a aspectos opcionales de Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | En el caso de las Google Cloud fuentes, @bigquery
se crean grupos de entradas del sistema por proyecto en Dataplex Universal Catalog. |
Aspectos necesarios de las entradas personalizadas | Entrada personalizada | Data Catalog y Dataplex Universal Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Universal Catalog. |
Aspectos necesarios para acceder al sistema | Entrada de sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se registran en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
Glosarios empresariales | Glosarios empresariales | Usa glosarios para crear una taxonomía de términos empresariales que estandarice el contexto empresarial en toda la empresa. |
Para obtener más información sobre las funciones disponibles en Data Catalog que no se admiten en el catálogo universal de Dataplex, consulta la sección Funciones de gestión de metadatos que no se admiten en el catálogo universal de Dataplex de este documento.
Para usuarios actuales de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general, los glosarios y los grupos de entradas que hayas creado en Data Catalog estarán disponibles en Dataplex Universal Catalog.
- Como administrador, puedes hacer que el contenido de las plantillas de etiquetas y las etiquetas de Data Catalog esté disponible simultáneamente en Dataplex Universal Catalog. Para obtener más información, consulta el artículo Pasar de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Dataplex Universal Catalog, se incluyen tanto los metadatos que se crearon directamente en Dataplex Universal Catalog como los que se importaron de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluye los metadatos que se han creado en Data Catalog.
- Las descripciones de los grupos de entradas de Data Catalog que superen los 1024 caracteres se truncarán a 1024 caracteres en Dataplex Universal Catalog.
- Como administrador, para que los glosarios y los enlaces asociados entre los términos empresariales y las columnas que has creado en Data Catalog estén disponibles en Dataplex Universal Catalog, sigue el proceso de transición.
Para obtener más información sobre cómo migrar el contenido y el uso de Data Catalog independiente a Dataplex Universal Catalog, consulta el artículo Migrar de Data Catalog a Dataplex Universal Catalog.
Fuentes admitidas
- Detección automática de datos de Cloud Storage
- Los metadatos de las siguientes Google Cloud fuentes se ingieren automáticamente
en Dataplex Universal Catalog:
- Intercambios y fichas de BigQuery (antes Analytics Hub)
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de las familias de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL: consulta Habilitar la integración de Cloud SQL.
- Servicios, bases de datos y tablas de Dataproc Metastore
- Temas Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de características, vistas de características e instancias de almacén online de Vertex AI
Para importar metadatos de una fuente de terceros a Dataplex Universal Catalog, puedes usar una pipeline de conectividad gestionada.
Restricciones de proyectos y ubicaciones
Los recursos de catálogo de Dataplex Universal Catalog se encuentran en varios proyectos y ubicaciones. Se aplican las siguientes limitaciones:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
global
. - Un aspecto añadido a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada o el tipo de aspecto debe ser
global
. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenen en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada o el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones de gestión de metadatos no compatibles con Dataplex Universal Catalog
Las siguientes funciones disponibles en Data Catalog no se admiten en Dataplex Universal Catalog:
- En Dataplex Universal Catalog no existen los conceptos de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas de Data Catalog).
- La búsqueda de etiquetas de políticas no se admite en la búsqueda de Dataplex Universal Catalog. Por lo tanto, los predicados
policytag
ypolicytagid
no funcionan en la búsqueda de Dataplex Universal Catalog. - Cuando importas grupos de entradas personalizadas, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Universal Catalog, sus permisos originales no se transfieren. Debes configurar explícitamente los permisos de gestión de identidades y accesos para los metadatos copiados antes de usarlos.
- No se puede usar Terraform para gestionar aspectos ni entradas personalizadas. En su lugar, puedes gestionar de forma programática tus metadatos personalizados a gran escala mediante una pipeline de conectividad gestionada o los métodos de la API de importación de metadatos. (Se admite Terraform para grupos de entradas, tipos de entradas y tipos de aspectos. Consulta Aprovisionar recursos de Dataplex Universal Catalog con Terraform).
- No se admite el envío de los resultados de la inspección de protección de datos sensibles directamente al catálogo de Dataplex Universal Catalog. En su lugar, puede enviar los resultados de la inspección de Protección de Datos Sensibles a Data Catalog y, a continuación, transferir los resultados a Dataplex Universal Catalog.
- No puedes mostrar tipos de entrada y tipos de aspecto en varios proyectos mediante la API. Puedes limitar el ámbito de la solicitud de lista a un proyecto.
- No se admite el registro de lagos, zonas, recursos y entidades como entradas de Dataplex Universal Catalog. Esto significa que los metadatos de Data Catalog que se adjuntan a lagos, zonas, recursos y entidades no se transfieren al catálogo de Dataplex Universal Catalog. Además, cuando se usa la búsqueda del catálogo universal de Dataplex, no se pueden buscar zonas ni entidades, ni tampoco filtrar por lagos y zonas. Puedes usar lagos y zonas de forma independiente del catálogo en Dataplex Universal Catalog.
- No se admite la búsqueda de administradores, que garantiza que se recuerde todo. En su lugar, puede exportar metadatos a Cloud Storage y, a continuación, consultarlos desde BigQuery.
Para ver una comparación de las funciones y los recursos que se admiten en Dataplex Universal Catalog y Data Catalog, consulta la sección Dataplex Universal Catalog frente a Data Catalog de este documento.
Precios
Dataplex Universal Catalog usa la SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta los precios de Dataplex Universal Catalog.
No se aplican cargos por usar lo siguiente:
- Crear y gestionar recursos de catálogo en Dataplex Universal Catalog
- Llamadas a la API Search de Dataplex Universal Catalog
- Consultas de búsqueda realizadas en la página Dataplex Universal Catalog de laGoogle Cloud consola
Siguientes pasos
- Consulta cómo buscar recursos en Dataplex Universal Catalog.
- Consulta cómo gestionar recursos y enriquecer metadatos.
- Consulta cómo gestionar entradas e incorporar fuentes personalizadas.
- Más información sobre la transición de Data Catalog a Dataplex Universal Catalog
- Más información sobre cómo migrar glosarios a Dataplex Universal Catalog