Trabajar con Data Catalog
Data Catalog se integra con BigQuery catalogando automáticamente los metadatos de los recursos de BigQuery, como tablas, conjuntos de datos, vistas y modelos. En este documento se describe cómo buscar estos recursos, ver el linaje de datos y añadir etiquetas mediante Data Catalog.
Buscar recursos de BigQuery
Para usar Data Catalog y buscar conjuntos de datos y tablas de BigQuery, así como proyectos destacados, sigue estos pasos:
En la consola, vaya a la página Búsqueda del catálogo de datos. Google Cloud
En el campo Buscar, introduce una consulta y, a continuación, haz clic en Buscar.
Para acotar los parámetros de búsqueda, usa el panel Filtros. Por ejemplo, en la sección Sistemas, selecciona la casilla BigQuery. Los resultados se filtran en los sistemas de BigQuery.
Puede realizar búsquedas básicas en el catálogo de datos a través de laGoogle Cloud consola. Para obtener más información sobre cómo buscar en la Google Cloud consola, consulta Abrir un conjunto de datos público.
Linaje de datos
El linaje de los datos es una función de Dataplex Universal Catalog que te permite monitorizar cómo se mueven los datos por tus sistemas: de dónde proceden, a dónde se transfieren y qué transformaciones se les aplican. Puedes acceder a la función de linaje de datos directamente desde BigQuery.
Si habilitas el linaje de datos en tu proyecto de BigQuery, el catálogo universal de Dataplex registrará automáticamente la información del linaje de las tablas creadas por las siguientes operaciones:
- Copiar tareas.
Tareas de consulta que usan las siguientes instrucciones de lenguaje de definición de datos (DDL) o de lenguaje de manipulación de datos (DML) en GoogleSQL:
CREATE TABLE
(incluida la instrucciónCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Antes de empezar
En esta sección, habilitarás la API Data Lineage y asignarás roles de gestión de identidades y accesos (IAM) que proporcionen a los usuarios los permisos necesarios para realizar cada tarea de este documento.
Habilitar el linaje de datos
- En la Google Cloud consola, en la página del selector de proyectos, selecciona el proyecto que contenga los recursos de los que quieras hacer un seguimiento del linaje.
- Habilita las APIs Data Lineage y Dataplex.
Roles de gestión de identidades y accesos necesarios
La información de linaje se registra automáticamente cuando habilita la API Data Lineage.
Para obtener los permisos que necesitas para ver los gráficos de linaje, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos (IAM):
-
Lector de Data Catalog (
roles/datacatalog.viewer
) en un proyecto de recursos de Data Catalog. -
Lector de linaje de datos (
roles/datalineage.viewer
) en el proyecto en el que uses sistemas compatibles con el linaje de datos. -
Metadatos de BigQuery (
roles/bigquery.metadataViewer
)
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.
Para obtener más información, consulta Roles de linaje de datos.
Ver gráficos de linaje en BigQuery
Para ver el gráfico de linaje de datos de BigQuery, sigue estos pasos:
En la Google Cloud consola, ve a la página BigQuery.
En el panel Explorador, expande tu proyecto y tu conjunto de datos, y selecciona una tabla.
Haz clic en la pestaña Linaje.
Se muestra el gráfico de linaje de datos.
Opcional: Selecciona un nodo para ver más detalles sobre las entidades o los procesos implicados en la creación de la información de linaje.
Para obtener más información sobre el linaje de datos, consulta Acerca del linaje de datos.
Etiquetas y plantillas de etiqueta
Las etiquetas permiten a las organizaciones crear, buscar y gestionar metadatos de todas sus entradas de datos en un servicio unificado.
En esta sección se explican dos conceptos clave de Data Catalog:
Las etiquetas le permiten proporcionar contexto a una entrada de datos adjuntando campos de metadatos personalizados.
Las plantillas de etiquetas son estructuras reutilizables que puedes usar para crear etiquetas rápidamente.
Etiquetas
Data Catalog ofrece dos tipos de etiquetas: privadas y públicas.
Etiquetas privadas
Las etiquetas privadas ofrecen controles de acceso estrictos. Solo puede buscar o ver las etiquetas y las entradas de datos asociadas a las etiquetas si tiene los permisos de vista necesarios tanto en la plantilla de etiqueta privada como en las entradas de datos.
Para buscar etiquetas privadas en la página Catálogo de datos, debe usar la sintaxis de búsqueda tag:
o los filtros de búsqueda.
Las etiquetas privadas son adecuadas para situaciones en las que necesitas almacenar información sensible en la etiqueta y quieres aplicar restricciones de acceso adicionales más allá de comprobar si el usuario tiene los permisos para ver la entrada etiquetada.
Etiquetas públicas
Las etiquetas públicas ofrecen un control de acceso menos estricto para buscar y ver la etiqueta en comparación con las etiquetas privadas. Cualquier usuario que tenga los permisos de visualización necesarios para una entrada de datos puede ver todas las etiquetas públicas asociadas a ella. Los permisos de vista
de las etiquetas públicas solo son necesarios cuando realizas una búsqueda en el catálogo de datos
con la sintaxis tag:
o cuando ves una plantilla de etiqueta no adjunta.
Las etiquetas públicas admiten tanto la búsqueda sencilla como la búsqueda con predicados en la página de búsqueda de Data Catalog. Cuando creas una plantilla de etiqueta, la opción de crear una plantilla de etiqueta pública es la predeterminada y recomendada en la Google Cloud consola.
Por ejemplo, supongamos que tienes una plantilla de etiqueta pública llamada employee data
que has usado para crear etiquetas de tres entradas de datos llamadas Name
, Location
y Salary
. De las tres entradas de datos, solo los miembros de un grupo específico llamado HR
pueden ver la entrada de datos Salary
. Las otras dos entradas de datos tienen permisos de visualización para todos los empleados de la empresa.
Si un empleado que no es miembro del grupo HR
usa la página de búsqueda del catálogo de datos y busca la palabra employee
, en el resultado de búsqueda solo se mostrarán las entradas de datos Name
y Location
con las etiquetas públicas asociadas.
Las etiquetas públicas son útiles en una amplia variedad de situaciones. Las etiquetas públicas admiten búsquedas sencillas y búsquedas con predicados, mientras que las etiquetas privadas solo admiten búsquedas con predicados.
Plantillas de etiquetas
Para empezar a etiquetar metadatos, primero debes crear una o varias plantillas de etiqueta. Una plantilla de etiqueta puede ser pública o privada. Cuando creas una plantilla de etiqueta, la opción de crear una plantilla de etiqueta pública es la predeterminada y la recomendada en la Google Cloud consola. Una plantilla de etiqueta es un grupo de pares clave-valor de metadatos llamados campos. Tener un conjunto de plantillas es similar a tener un esquema de base de datos para tus metadatos.
Puedes estructurar tus etiquetas por temas. Por ejemplo:
- Una etiqueta
data governance
con campos para el responsable de los datos, la fecha de conservación, la fecha de eliminación, la información personal identificable (sí o no) y la clasificación de los datos (públicos, confidenciales, sensibles o reglamentarios). - Una etiqueta
data quality
con campos para problemas de calidad, frecuencia de actualización e información de SLO - Una etiqueta
data usage
con campos para los usuarios principales, las consultas principales y los usuarios diarios medios
Después, puede combinar etiquetas y usar solo las que sean relevantes para cada recurso de datos y para las necesidades de su empresa.
Ver la galería de plantillas de etiquetas
Para ayudarte a empezar, Data Catalog incluye una galería de plantillas de etiquetas de ejemplo que ilustran casos prácticos habituales de etiquetado. Usa estos ejemplos para descubrir las ventajas del etiquetado, inspirarte o como punto de partida para crear tu propia infraestructura de etiquetado.
Para usar una galería de plantillas de etiquetas, sigue estos pasos:
En la Google Cloud consola, ve a la página Plantillas de etiquetas de Dataplex Universal Catalog.
Haga clic en Crear plantilla de etiqueta.
La galería de plantillas se muestra en la página Crear plantilla.
Después de seleccionar una plantilla de la galería, puedes usarla como cualquier otra plantilla de etiquetas. Puedes añadir o eliminar atributos y cambiar cualquier aspecto de la plantilla en función de las necesidades de tu empresa. Después, puedes buscar los campos y valores de la plantilla con Data Catalog.
Para obtener más información sobre las etiquetas y las plantillas de etiquetas, consulte el artículo Etiquetas y plantillas de etiquetas.
Recursos regionales
Cada plantilla de etiqueta y etiqueta se almacena en una Google Cloud región concreta. Puede usar una plantilla de etiqueta para crear una etiqueta en cualquier región, por lo que no es necesario que cree copias de su plantilla si tiene entradas de metadatos distribuidas en varias regiones.