En este documento se explica cómo sincronizar los metadatos de Dataproc Metastore con Data Catalog.
Una vez que hayas sincronizado estos dos servicios, podrás usar Data Catalog para gestionar los metadatos de Dataproc Metastore. Por ejemplo, con Data Catalog, puedes etiquetar y buscar recursos específicos de Dataproc Metastore, como bases de datos y tablas.
¿Qué es Data Catalog?
Data Catalog es un servicio de gestión de metadatos escalable y totalmente gestionado. Proporciona una vista unificada y mecanismos de etiquetado para los metadatos técnicos y empresariales.
Para obtener más información, consulta las siguientes guías de funciones de Data Catalog:
Antes de empezar
Roles obligatorios
Para obtener los permisos que necesitas para sincronizar los metadatos de Dataproc Metastore con Data Catalog, pide a tu administrador que te asigne el rol de gestión de identidades y accesos Ver entradas sincronizadas de Dataproc Metastore en Data Catalog (roles/metastore.metadataViewer
) en tu proyecto, según el principio de privilegio mínimo.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene los permisos necesarios para sincronizar los metadatos de Dataproc Metastore con Data Catalog. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:
Permisos obligatorios
Para sincronizar los metadatos de Dataproc Metastore con Data Catalog, se necesitan los siguientes permisos:
-
Para obtener bases de datos de Dataproc Metastore, haz lo siguiente:
metastore.databases.get
-
Para enumerar las bases de datos de Dataproc Metastore, haz lo siguiente:
metastore.databases.list
-
Para obtener las tablas de Dataproc Metastore, haz lo siguiente:
metastore.tables.get
-
Para enumerar las tablas de Dataproc Metastore, haz lo siguiente:
metastore.tables.list
También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.
Para obtener más información sobre roles y permisos específicos de Dataproc Metastore, consulta Gestionar el acceso con IAM.Cómo funcionan los permisos entre los servicios
Data Catalog se rige por los permisos de nivel de Dataproc Metastore. En el caso de los metadatos que se sincronizan de Dataproc Metastore a Data Catalog, los permisos de gestión de identidades y accesos especificados en Dataproc Metastore también se aplican a los metadatos de Data Catalog.
Data Catalog comprueba los permisos de cada metastore, base de datos y tabla en el momento del acceso para que solo los usuarios que tengan acceso al servicio Dataproc Metastore puedan ver los recursos de servicio sincronizados como entradas en Data Catalog.
Cómo funciona la sincronización de Data Catalog con Dataproc Metastore
Puedes habilitar la sincronización de Dataproc Metastore con Data Catalog al crear o actualizar un servicio de Dataproc Metastore mediante la Google Cloud consola. Puedes inhabilitar la sincronización del mismo modo.
Después de habilitar la sincronización de Data Catalog, los metadatos de las bases de datos y las tablas se sincronizan automáticamente de Dataproc Metastore a Data Catalog.
Data Catalog sincroniza los siguientes metadatos:
- Instancias.
- Bases de datos, incluidos el nombre y la descripción.
- Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones).
En la siguiente tabla se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:
Recurso de Dataproc Metastore | Recurso de Data Catalog |
---|---|
Instancia | Grupo de entradas Entrada |
Base de datos | Entrada |
Tabla | Entrada |
Columna | Esquema |
Cuestiones importantes
Los metadatos de Dataproc Metastore pueden tardar hasta 6 horas en sincronizarse por completo con Data Catalog. Una vez que se haya completado la sincronización inicial, los cambios incrementales se sincronizarán bajo demanda (por ejemplo, las actualizaciones de tablas o bases de datos). Si falla una sincronización bajo demanda, se incluye en una repetición por lotes que se produce cada 6 horas.
Si sospechas que hay un problema con la sincronización, consulta los registros de publicación de metadatos en Cloud Logging de Dataproc Metastore con el filtro
textPayload=~".*Publish.*"
. Para obtener más información sobre cómo acceder a los registros, consulta Acceder a los registros de trabajos en Logging.Si inhabilitas la sincronización de Data Catalog, los metadatos dejarán de sincronizarse de Dataproc Metastore a Data Catalog. Sin embargo, los metadatos que ya se hayan sincronizado permanecerán en Data Catalog.
Si eliminas una instancia de Dataproc Metastore, también se eliminarán las entradas de instancia, base de datos y tabla correspondientes de Data Catalog.
Los metadatos de Dataproc Metastore almacenados en Data Catalog se rigen por los Google Cloud periodos de conservación estándar.
No hay costes adicionales por habilitar la sincronización de Data Catalog con Dataproc Metastore.
Crear un servicio con la sincronización de Data Catalog habilitada
La sincronización de Data Catalog está inhabilitada de forma predeterminada.
Para habilitar la sincronización de Data Catalog en un nuevo servicio, sigue estas instrucciones.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore:
En la parte superior de la página Dataproc Metastore, haz clic en Crear.
Se abrirá la página Crear servicio.
Selecciona la versión de Dataproc Metastore que quieras usar.
En Integración de metadatos, haz clic en Sincronización de Data Catalog.
En el resto de las opciones de configuración del servicio, usa los valores predeterminados. También puedes configurar el servicio según tus necesidades.
Haz clic en Enviar.
Habilitar o inhabilitar la sincronización de Data Catalog en un servicio
Para habilitar o inhabilitar la sincronización de Data Catalog en un servicio, sigue estas instrucciones.
Consola
En la Google Cloud consola, abre la página Dataproc Metastore:
En la página Dataproc Metastore, haga clic en el servicio que quiera actualizar.
Se abrirá la página Detalles del servicio correspondiente.
En la pestaña Configuración, haz clic en Editar.
Se abrirá la página Editar servicio.
En Integración de metadatos, activa o desactiva Sincronización de Data Catalog.
Haz clic en Enviar.
Buscar con Data Catalog
Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.
Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, hay varias formas de buscar diferentes recursos de Dataproc Metastore, entre las que se incluyen las siguientes:
- Instancia de Dataproc Metastore
- Por nombre visible
- Funciones estándar de Data Catalog, como el uso de etiquetas.
- Base de datos
- Por nombre visible
- Por descripción
- Por instancia de Dataproc Metastore
- Funciones estándar de Data Catalog, como el uso de etiquetas.
- Tabla
- Por nombre visible
- Por descripción
- Por nombre de columna
- Por descripción de la columna
- Por base de datos
- Por instancia de Dataproc Metastore
- Funciones estándar de Data Catalog, como el uso de etiquetas.