Trabajar con Data Catalog

Data Catalog se integra con BigQuery catalogando automáticamente los metadatos de los recursos de BigQuery, como tablas, conjuntos de datos, vistas y modelos. En este documento se describe cómo buscar estos recursos, ver el linaje de datos y añadir etiquetas mediante Data Catalog.

Buscar recursos de BigQuery

Para usar Data Catalog y buscar conjuntos de datos y tablas de BigQuery, así como proyectos destacados, sigue estos pasos:

  1. En la consola, vaya a la página Búsqueda del catálogo de datos. Google Cloud

    Ir a la búsqueda

  2. En el campo Buscar, introduce una consulta y, a continuación, haz clic en Buscar.

    La búsqueda de Data Catalog te permite encontrar datos en tus proyectos y organizaciones.

    Para acotar los parámetros de búsqueda, usa el panel Filtros. Por ejemplo, en la sección Sistemas, selecciona la casilla BigQuery. Los resultados se filtran en los sistemas de BigQuery.

Puede realizar búsquedas básicas en el catálogo de datos a través de laGoogle Cloud consola. Para obtener más información sobre cómo buscar en la Google Cloud consola, consulta Abrir un conjunto de datos público.

Linaje de datos

El linaje de los datos es una función de Dataplex Universal Catalog que te permite monitorizar cómo se mueven los datos por tus sistemas: de dónde proceden, a dónde se transfieren y qué transformaciones se les aplican. Puedes acceder a la función de linaje de datos directamente desde BigQuery.

Si habilitas el linaje de datos en tu proyecto de BigQuery, el catálogo universal de Dataplex registrará automáticamente la información del linaje de las tablas creadas por las siguientes operaciones:

Antes de empezar

En esta sección, habilitarás la API Data Lineage y asignarás roles de gestión de identidades y accesos (IAM) que proporcionen a los usuarios los permisos necesarios para realizar cada tarea de este documento.

Habilitar el linaje de datos

  1. En la Google Cloud consola, en la página del selector de proyectos, selecciona el proyecto que contenga los recursos de los que quieras hacer un seguimiento del linaje.

    Ir al selector de proyectos

  2. Habilita las APIs Data Lineage y Dataplex.

    Habilitar las APIs

Roles de gestión de identidades y accesos necesarios

La información de linaje se registra automáticamente cuando habilita la API Data Lineage.

Para obtener los permisos que necesitas para ver los gráficos de linaje, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos (IAM):

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Para obtener más información, consulta Roles de linaje de datos.

Ver gráficos de linaje en BigQuery

Para ver el gráfico de linaje de datos de BigQuery, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, expande tu proyecto y tu conjunto de datos, y selecciona una tabla.

  3. Haz clic en la pestaña Linaje.

    Pestaña Linaje de datos.

    Se muestra el gráfico de linaje de datos.

    Gráfico de linaje de datos.

  4. Opcional: Selecciona un nodo para ver más detalles sobre las entidades o los procesos implicados en la creación de la información de linaje.

Para obtener más información sobre el linaje de datos, consulta Acerca del linaje de datos.

Etiquetas y plantillas de etiqueta

Las etiquetas permiten a las organizaciones crear, buscar y gestionar metadatos de todas sus entradas de datos en un servicio unificado.

En esta sección se explican dos conceptos clave de Data Catalog:

  • Las etiquetas le permiten proporcionar contexto a una entrada de datos adjuntando campos de metadatos personalizados.

  • Las plantillas de etiquetas son estructuras reutilizables que puedes usar para crear etiquetas rápidamente.

Etiquetas

Data Catalog ofrece dos tipos de etiquetas: privadas y públicas.

Etiquetas privadas

Las etiquetas privadas ofrecen controles de acceso estrictos. Solo puede buscar o ver las etiquetas y las entradas de datos asociadas a las etiquetas si tiene los permisos de vista necesarios tanto en la plantilla de etiqueta privada como en las entradas de datos.

Para buscar etiquetas privadas en la página Catálogo de datos, debe usar la sintaxis de búsqueda tag: o los filtros de búsqueda.

Las etiquetas privadas son adecuadas para situaciones en las que necesitas almacenar información sensible en la etiqueta y quieres aplicar restricciones de acceso adicionales más allá de comprobar si el usuario tiene los permisos para ver la entrada etiquetada.

Etiquetas públicas

Las etiquetas públicas ofrecen un control de acceso menos estricto para buscar y ver la etiqueta en comparación con las etiquetas privadas. Cualquier usuario que tenga los permisos de visualización necesarios para una entrada de datos puede ver todas las etiquetas públicas asociadas a ella. Los permisos de vista de las etiquetas públicas solo son necesarios cuando realizas una búsqueda en el catálogo de datos con la sintaxis tag: o cuando ves una plantilla de etiqueta no adjunta.

Las etiquetas públicas admiten tanto la búsqueda sencilla como la búsqueda con predicados en la página de búsqueda de Data Catalog. Cuando creas una plantilla de etiqueta, la opción de crear una plantilla de etiqueta pública es la predeterminada y recomendada en la Google Cloud consola.

Por ejemplo, supongamos que tienes una plantilla de etiqueta pública llamada employee data que has usado para crear etiquetas de tres entradas de datos llamadas Name, Location y Salary. De las tres entradas de datos, solo los miembros de un grupo específico llamado HR pueden ver la entrada de datos Salary. Las otras dos entradas de datos tienen permisos de visualización para todos los empleados de la empresa.

Si un empleado que no es miembro del grupo HR usa la página de búsqueda del catálogo de datos y busca la palabra employee, en el resultado de búsqueda solo se mostrarán las entradas de datos Name y Location con las etiquetas públicas asociadas.

Las etiquetas públicas son útiles en una amplia variedad de situaciones. Las etiquetas públicas admiten búsquedas sencillas y búsquedas con predicados, mientras que las etiquetas privadas solo admiten búsquedas con predicados.

Plantillas de etiquetas

Para empezar a etiquetar metadatos, primero debes crear una o varias plantillas de etiqueta. Una plantilla de etiqueta puede ser pública o privada. Cuando creas una plantilla de etiqueta, la opción de crear una plantilla de etiqueta pública es la predeterminada y la recomendada en la Google Cloud consola. Una plantilla de etiqueta es un grupo de pares clave-valor de metadatos llamados campos. Tener un conjunto de plantillas es similar a tener un esquema de base de datos para tus metadatos.

Puedes estructurar tus etiquetas por temas. Por ejemplo:

  • Una etiqueta data governance con campos para el responsable de los datos, la fecha de conservación, la fecha de eliminación, la información personal identificable (sí o no) y la clasificación de los datos (públicos, confidenciales, sensibles o reglamentarios).
  • Una etiqueta data quality con campos para problemas de calidad, frecuencia de actualización e información de SLO
  • Una etiqueta data usage con campos para los usuarios principales, las consultas principales y los usuarios diarios medios

Después, puede combinar etiquetas y usar solo las que sean relevantes para cada recurso de datos y para las necesidades de su empresa.

Para ayudarte a empezar, Data Catalog incluye una galería de plantillas de etiquetas de ejemplo que ilustran casos prácticos habituales de etiquetado. Usa estos ejemplos para descubrir las ventajas del etiquetado, inspirarte o como punto de partida para crear tu propia infraestructura de etiquetado.

Para usar una galería de plantillas de etiquetas, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Plantillas de etiquetas de Dataplex Universal Catalog.

    Vaya a Plantillas de etiquetas.

  2. Haga clic en Crear plantilla de etiqueta.

    La galería de plantillas se muestra en la página Crear plantilla.

Después de seleccionar una plantilla de la galería, puedes usarla como cualquier otra plantilla de etiquetas. Puedes añadir o eliminar atributos y cambiar cualquier aspecto de la plantilla en función de las necesidades de tu empresa. Después, puedes buscar los campos y valores de la plantilla con Data Catalog.

Para obtener más información sobre las etiquetas y las plantillas de etiquetas, consulte el artículo Etiquetas y plantillas de etiquetas.

Recursos regionales

Cada plantilla de etiqueta y etiqueta se almacena en una Google Cloud región concreta. Puede usar una plantilla de etiqueta para crear una etiqueta en cualquier región, por lo que no es necesario que cree copias de su plantilla si tiene entradas de metadatos distribuidas en varias regiones.