Sincroniza Dataproc Metastore con Data Catalog

En este documento, se muestra cómo sincronizar metadatos de Dataproc Metastore con Data Catalog.

Después de sincronizar estos dos servicios, puedes usar Data Catalog para administrar tus metadatos de Dataproc Metastore. Por ejemplo, si usas Data Catalog, puedes etiquetar y buscar Dataproc Metastore específicos recursos, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es una solución de administración de metadatos escalable y completamente administrada servicio. Proporciona una vista unificada y mecanismos de etiquetado para los y los metadatos empresariales.

Para obtener más información, consulta la siguiente función de Data Catalog guías:

Antes de comenzar

Roles obligatorios

Si deseas obtener los permisos que necesitas para sincronizar los metadatos de Dataproc Metastore con Data Catalog, solicita a tu administrador que te otorgue el Visualiza entradas sincronizadas de Dataproc Metastore en Data Catalog (roles/metastore.metadataViewer) en tu proyecto, según el principio de privilegio mínimo. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para sincronizar los metadatos de Dataproc Metastore con Data Catalog Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para sincronizar los metadatos de Dataproc Metastore con Data Catalog:

  • Para obtener las bases de datos de Dataproc Metastore, haz lo siguiente: metastore.databases.get
  • Para enumerar las bases de datos de Dataproc Metastore, sigue estos pasos: metastore.databases.list
  • Para obtener tablas de Dataproc Metastore, sigue estos pasos: metastore.tables.get
  • Para enumerar las tablas de Dataproc Metastore, sigue estos pasos: metastore.tables.list

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre roles y permisos específicos de Dataproc Metastore, consulta Administra el acceso con la IAM.

Cómo funcionan los permisos entre los servicios

Data Catalog cumple con el nivel de Dataproc Metastore permisos. Para los metadatos que se sincronizan desde Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore se aplica a los metadatos en Data Catalog a tus conjuntos de datos.

Data Catalog verifica los permisos de cada almacén de metadatos. en el momento del acceso para que solo los usuarios con acceso El servicio de Dataproc Metastore puede ver el servicio sincronizado como entradas en Data Catalog.

Cómo funciona la sincronización de Data Catalog con Dataproc Metastore

Puedes habilitar Dataproc Metastore en Data Catalog cuando creas o actualizas un servicio de Dataproc Metastore con la consola de Google Cloud. Puedes inhabilitar la sincronización de la misma manera.

Después de habilitar la sincronización de Data Catalog, se generan los metadatos de la base de datos y de la tabla sincronizada automáticamente de Dataproc Metastore a Data Catalog.

Data Catalog sincroniza los siguientes metadatos:

  • Instancias.
  • Bases de datos, incluidos el nombre y la descripción.
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones)

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Grupo de entradas
Entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Consideraciones

  • Pueden pasar hasta 6 horas antes de que tu Dataproc Metastore metadatos se sincronice por completo con Data Catalog. Después de que se realiza la sincronización inicial, los cambios incrementales se sincronizan a pedido (como las actualizaciones de tablas o bases de datos). Si una sincronización a pedido falla, la sincronización se incluye en un lote volver a ejecutarlo cada 6 horas.

  • Si sospechas que hay un problema con la sincronización, comprueba los metadatos publicación de registros en Cloud Logging en Dataproc Metastore con el filtro textPayload=~".*Publish.*". Para obtener más información sobre cómo acceder a los registros, consulta Accede a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, tus metadatos dejarán de sincronizarse de Dataproc Metastore a Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecerán en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las entradas de instancia, base de datos y tabla correspondientes también se quitan de Data Catalog.

  • Los metadatos de Dataproc Metastore almacenados en Data Catalog se adhieren a los períodos de retención estándar de Google Cloud.

  • No se aplican costos adicionales por habilitar la sincronización de Data Catalog para Dataproc Metastore.

Crea un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

Para habilitar la sincronización de Data Catalog en un servicio nuevo, usa el siguiente comando: instrucciones.

Console

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la parte superior de la página Dataproc Metastore, haz clic en Crear.

    Se abrirá la página Crear servicio.

  3. Selecciona la versión de Dataproc Metastore que deseas usar.

  4. En Integración de metadatos, haz clic en Sincronización de Data Catalog.

  5. Para las opciones de configuración del servicio restantes, usa los valores predeterminados proporcionados. O bien, configura tu servicio según sea necesario.

  6. Haz clic en Enviar.

Habilita o inhabilita la sincronización de Data Catalog para un servicio existente

Para habilitar o inhabilitar la sincronización de Data Catalog en un servicio existente, haz lo siguiente: sigue estas instrucciones.

Console

  1. En la consola de Google Cloud, abre la página de Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la página Dataproc Metastore, haz clic en el servicio que deseas actualizar.

    Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en Editar.

    Se abrirá la página Editar servicio.

  4. En Integración de metadatos, activa o desactiva Sincronización de Data Catalog. activar o desactivar.

  5. Haz clic en Enviar.

Cómo buscar con Data Catalog

Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.

Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, Existen varias formas de buscar diferentes Dataproc Metastore recursos, como los siguientes:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas.
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)
  • Tabla
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas.

¿Qué sigue?