Dataplex Universal Catalog proporciona una plataforma central para almacenar, administrar y acceder a tus metadatos. En este documento, se describen las funciones de administración de metadatos de Dataplex Universal Catalog.
Dataplex Universal Catalog proporciona un inventario unificado de los recursosGoogle Cloud y locales. Dataplex Universal Catalog recupera y almacena automáticamente los metadatos de los recursos Google Cloud . También puedes incorporar tus propios metadatos para recursos de terceros en Dataplex Universal Catalog.
Puedes enriquecer tu inventario con metadatos técnicos y comerciales adicionales que capturen el contexto y el conocimiento sobre tus recursos. También puedes buscar y descubrir tus datos en toda la organización, y habilitar la administración de datos en tus activos de datos.
Puedes establecer tu experiencia de catálogo predeterminada en Dataplex Universal Catalog. Si usas Data Catalog, migra tu contenido y uso independientes de Data Catalog a Dataplex Universal Catalog. Para obtener más información, consulta Realiza la transición de Data Catalog a Dataplex Universal Catalog.
Casos de uso
Puedes usar Dataplex Universal Catalog para hacer lo siguiente:
Descubre y comprende tus datos. Dataplex Universal Catalog proporciona visibilidad sobre tus recursos de datos en toda la organización. Te permite encontrar recursos relevantes para las necesidades de consumo de datos. Proporciona contexto para los recursos de datos, lo que te ayuda a comprender la idoneidad de los recursos de datos para las necesidades de tu consumidor de datos.
Habilita la administración y el control de datos. Dataplex Universal Catalog proporciona metadatos que pueden informar y potenciar tus capacidades de administración y control de datos.
Mantén un repositorio extensible y completo para tus metadatos. Dataplex Universal Catalog almacena y proporciona acceso a los metadatos que se recopilan automáticamente de tus recursos de Google Cloud . Puedes integrar tus propios metadatos desde sistemas que no sean deGoogle Cloud . Puedes enriquecer todos los metadatos con anotaciones adicionales de metadatos técnicos y comerciales.
Cómo funciona la administración de metadatos en Dataplex Universal Catalog
Las funciones de administración de metadatos en Dataplex Universal Catalog se basan en los siguientes conceptos:
Entrada: Una entrada representa un recurso de datos. La mayoría de los metadatos se describen a través de aspectos dentro de una entrada. Esto es similar a las entradas en Data Catalog. Para obtener más información, consulta Entradas.
Aspecto: Un aspecto es un conjunto de campos de metadatos relacionados dentro de una entrada. Un aspecto se puede interpretar como un componente básico de una entrada o como metadatos adicionales para ella. Esto es similar a las etiquetas en Data Catalog, pero los aspectos se almacenan dentro de las entradas y no como recursos independientes. Para obtener más información, consulta Aspectos.
Tipo de aspecto: Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto es una instancia de un tipo de aspecto. Es similar a las plantillas de etiquetas en Data Catalog. Para obtener más información, consulta Tipos de aspectos.
Grupo de entradas: Un grupo de entradas es un contenedor de entradas que sirve como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entradas para configurar el control de acceso de Identity and Access Management, la atribución del proyecto o la ubicación de las entradas del grupo. Esto es similar a los grupos de entrada en Data Catalog. Para obtener más información, consulta Grupos de entradas.
Tipo de entrada: Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, que se describen como una lista de aspectos obligatorios para las entradas de este tipo. Para obtener más información, consulta Tipos de entrada.
Figura 1. Entradas y grupos de entradas Figura 2. Tipos de aspectos y tipos de entrada
Estos son algunos de los casos de uso de las funciones de administración de metadatos en Dataplex Universal Catalog:
- Como analista de datos o analista empresarial, puedes buscar entradas en toda la organización y explorar los metadatos asociados a ellas. Para obtener más información, consulta Busca recursos de datos.
- Como propietario o administrador de datos, puedes capturar metadatos técnicos y comerciales adicionales anotando tus entradas con aspectos. Para obtener más información, consulta Administra aspectos y enriquece metadatos. Para administrar los términos comerciales, consulta Cómo administrar glosarios.
- Como propietario o administrador de datos, puedes aportar coherencia a tus metadatos definiendo los estándares para las anotaciones (con tipos de aspectos), los glosarios empresariales (con categorías y términos comerciales) y las entradas personalizadas (con tipos de entradas). Para obtener más información, consulta Administra aspectos y enriquece metadatos y Administra glosarios empresariales.
- Como ingeniero de datos, puedes tener un inventario unificado de tus recursos, incluidos los recursos de Google Cloud y los recursos de sistemas de terceros. Dataplex Universal Catalog recolecta automáticamente los recursos deGoogle Cloud , y tú recolectas los recursos que no son deGoogle Cloud . Para obtener más información, consulta Administra entradas y procesa fuentes personalizadas.
Para usuarios existentes de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general, los glosarios y los grupos de entradas que creaste en Data Catalog están disponibles en Dataplex Universal Catalog.
- Como administrador, puedes optar por que el contenido de las etiquetas y las plantillas de etiquetas de Data Catalog esté disponible de forma simultánea en Dataplex Universal Catalog. Para obtener más información, consulta Realiza la transición de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Dataplex Universal Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Universal Catalog y los que se importaron de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
- Las descripciones de los grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a 1,024 caracteres en Dataplex Universal Catalog.
- Como administrador, para que los glosarios y los vínculos asociados entre los términos comerciales y las columnas que creaste en Data Catalog estén disponibles en Dataplex Universal Catalog, sigue el proceso de transición.
Para obtener más información sobre cómo migrar el contenido y el uso independientes de Data Catalog a Dataplex Universal Catalog, consulta Cómo migrar de Data Catalog a Dataplex Universal Catalog.
Comparación entre Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog proporciona capacidades integradas para administrar tus metadatos. El almacenamiento de metadatos y los métodos de la API están integrados en la API de Dataplex.
Las principales funciones de administración de metadatos en Dataplex Universal Catalog incluyen las siguientes:
Metamodelo más robusto
- Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos requerido para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la incorporación personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
- Se admite una mayor variedad y complejidad de metadatos, incluida la compatibilidad con estructuras de anidación, como listas, mapas y arrays.
Se mejoró la escalabilidad, incluida la capacidad de interactuar con todos los metadatos asociados a una entrada a través de operaciones CRUD atómicas únicas y la capacidad de recuperar varias anotaciones de metadatos asociadas en las respuestas de búsqueda o de lista.
En la siguiente tabla, se comparan las funciones de administración de metadatos de Dataplex Universal Catalog y Data Catalog:
Función | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fuentes Google Cloud compatibles | Todas las fuentes, como se describe en la sección Fuentes Google Cloud admitidas de este documento | Todas las fuentes que se describen en Entradas y grupos de entrada |
Ingesta de fuentes personalizadas | Transferencia a entradas personalizadas con estructura controlada, definida por tipos de entrada. Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en Dataplex Universal Catalog con el tipo de entrada | Ingesta en entradas personalizadas genéricas |
Enriquecimiento de metadatos | El contexto de los metadatos para las entradas se captura con glosarios empresariales, aspectos y tipos de aspectos. | El contexto de los metadatos de las entradas se captura con glosarios empresariales, etiquetas y plantillas de etiquetas. |
Buscar | La búsqueda se realiza en los siguientes elementos:
Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen a la misma organización y al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consola de Google Cloud , este es el proyecto que se selecciona en la consola. Ten en cuenta que, para buscar entradas, necesitas al menos uno de los siguientes roles de IAM en el proyecto que se usa para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Visualizador de Dataplex Catalog. Los permisos en los resultados de la búsqueda se verifican independientemente del proyecto seleccionado. |
La búsqueda se realiza en los siguientes elementos:
|
Linaje de datos |
El linaje de datos recupera los detalles de las entradas para los nodos de recursos con la API de Dataplex. La consola Google Cloud muestra los aspectos adjuntos. |
El linaje de datos recupera los detalles de las entradas para los nodos de recursos con la API de Data Catalog. |
Glosarios empresariales |
El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con los recursos y las columnas de datos. Puedes usar la búsqueda para descubrir los recursos vinculados a un término. |
El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con columnas. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
En la siguiente tabla, se describe cómo se corresponden los recursos de Dataplex Universal Catalog con los de Data Catalog:
Recurso de Dataplex Universal Catalog | Recurso de Data Catalog | Descripción |
---|---|---|
Tipo de aspecto (global ) |
Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de aspectos global en Dataplex Universal Catalog. |
Aspecto opcional | Etiqueta pública | Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales en Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | En el caso de las fuentes de Google Cloud , los grupos de entradas del sistema, como @bigquery , se establecen por proyecto en Dataplex Universal Catalog. |
Aspectos obligatorios de la entrada personalizada | Entrada personalizada | Data Catalog y Dataplex Universal Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Universal Catalog. |
Aspectos obligatorios de la entrada del sistema | Entrada del sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
Glosarios empresariales | Glosarios empresariales | Usa glosarios para crear una taxonomía de términos comerciales que estandarice el contexto empresarial en toda la empresa. |
Para obtener más información sobre las funciones disponibles en Data Catalog, pero no compatibles con Dataplex Universal Catalog, consulta la sección Funciones de administración de metadatos que no son compatibles con Dataplex Universal Catalog en este documento.
Fuentes admitidas
- Detección automática de datos de Cloud Storage
- Los metadatos de las siguientes fuentes Google Cloud se transfieren automáticamente a Dataplex Universal Catalog:
- Intercambios y fichas de BigQuery sharing (anteriormente Analytics Hub)
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL. Consulta Cómo habilitar la integración de Cloud SQL.
- Servicios, base de datos y tablas de Dataproc Metastore
- Temas de Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de atributos, vistas de atributos y instancias de almacén en línea de Vertex AI
Para importar metadatos de una fuente externa a Dataplex Universal Catalog, puedes usar una canalización de conectividad administrada.
Restricciones de proyecto y ubicación
Los recursos del catálogo en Dataplex Universal Catalog se encuentran en varios proyectos y ubicaciones. Se aplica la siguiente limitación:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
global
. - Un aspecto agregado a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser
global
. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenan en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones de administración de metadatos que no se admiten en Dataplex Universal Catalog
Las siguientes funciones disponibles en Data Catalog no son compatibles con Dataplex Universal Catalog:
- El concepto de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas en Data Catalog) no existe en Dataplex Universal Catalog.
- La búsqueda de etiquetas de política no es compatible con la búsqueda de Dataplex Universal Catalog. Por lo tanto, los predicados
policytag
ypolicytagid
no funcionan en la búsqueda de Dataplex Universal Catalog. - Cuando transfieres grupos de entradas personalizados, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Universal Catalog, no se conservan sus permisos originales. Debes configurar explícitamente los permisos de IAM para los metadatos copiados antes de usarlos.
- No está disponible la compatibilidad con Terraform para administrar aspectos y entradas personalizadas. En cambio, puedes administrar tus metadatos personalizados de forma programática a gran escala con una canalización de conectividad administrada o los métodos de la API de importación de metadatos. (La compatibilidad de Terraform con los grupos de entradas, los tipos de entradas y los tipos de aspectos está disponible; consulta Aprovisiona recursos de Dataplex Universal Catalog con Terraform).
- No se admite el envío directo de los resultados de la inspección de la Protección de datos sensibles al catálogo en Dataplex Universal Catalog. En su lugar, puedes enviar los resultados de la inspección de Protección de datos sensibles a Data Catalog y, luego, transferir los resultados a Dataplex Universal Catalog.
- No puedes enumerar los tipos de entrada y los tipos de aspectos en todos los proyectos con la API. Puedes limitar el alcance de la solicitud de lista a un solo proyecto.
- No se admite el registro de lakes, zonas, recursos y entidades como entradas de Dataplex Universal Catalog. Esto significa que los metadatos de Data Catalog que se adjuntan a los lakes, las zonas, los recursos y las entidades no se transfieren al catálogo en Dataplex Universal Catalog. Además, cuando se usa la búsqueda de Dataplex Universal Catalog, no se admite la búsqueda de zonas ni entidades, ni el filtrado por lagos y zonas. Puedes usar lakes y zonas de forma independiente del catálogo en Dataplex Universal Catalog.
- No se admite la búsqueda de administradores, lo que garantiza una recuperación completa. En cambio, puedes exportar metadatos a Cloud Storage y, luego, consultarlos desde BigQuery.
Para comparar las funciones y los recursos compatibles con Dataplex Universal Catalog y Data Catalog, consulta la sección Comparación entre Dataplex Universal Catalog y Data Catalog en este documento.
Precios
Dataplex Universal Catalog usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta los precios de Dataplex Universal Catalog.
No se aplican cargos por usar lo siguiente:
- Crea y administra recursos del catálogo en Dataplex Universal Catalog
- Llamadas a la API de búsqueda de Dataplex Universal Catalog
- Búsquedas realizadas en la página de Dataplex Universal Catalog en laGoogle Cloud consola
¿Qué sigue?
- Obtén más información para buscar recursos en Dataplex Universal Catalog.
- Obtén más información para administrar recursos y enriquecer metadatos.
- Obtén más información para administrar entradas y transferir fuentes personalizadas.
- Obtén más información para migrar de Data Catalog a Dataplex Universal Catalog.
- Obtén más información para migrar glosarios a Dataplex Universal Catalog.