Prácticas recomendadas para Dataplex Universal Catalog

En este documento, se proporcionan orientación y prácticas recomendadas para usar Dataplex Universal Catalog.

Elige un proyecto para tu lake

Cuando selecciones el proyecto en el que alojarás tu lake, ten en cuenta los siguientes factores:

  • El proyecto debe pertenecer al mismo perímetro de Controles del servicio de VPC que los datos que se destinarán al lago.

  • La cuenta de servicio del lake requiere permisos de administrador en los buckets de Cloud Storage o los conjuntos de datos de BigQuery. El catálogo universal de Dataplex crea tablas externas en BigQuery para las tablas descubiertas en Cloud Storage. Dataplex Universal Catalog también pone a disposición los metadatos de las tablas de BigQuery y las tablas descubiertas en el bucket de Cloud Storage en un servicio de Dataproc Metastore. Dataproc Metastore se encuentra dentro del proyecto del data lake.

Configuración y limitaciones de Cloud Storage

  • Región: Dataplex Universal Catalog admite buckets de una sola región y de varias regiones en algunas Google Cloud regiones.

  • Clase de almacenamiento: Se admiten los buckets de Cloud Storage de todas las clases de almacenamiento (Standard, Nearline, Coldline y Archive). Es posible que se generen costos adicionales por la recuperación de datos si se accede a datos de Nearline, Coldline o Archive, o si se los analiza.

  • LCA del bucket: Dataplex Universal Catalog solo admite buckets de Cloud Storage con controles de acceso uniformes. No se admiten los controles de acceso detallados.

  • Pagos del solicitante: No se admiten los buckets de Cloud Storage con la función Pagos del solicitante habilitada.

Orientación sobre seguridad y permisos

Dataplex Universal Catalog requiere que se agreguen las cuentas de servicio de Dataplex Universal Catalog como una cuenta de servicio administrativa en los buckets y conjuntos de datos administrados.

Dataplex Universal Catalog permite que los analistas accedan a los buckets de Cloud Storage y a los conjuntos de datos de BigQuery en muchos proyectos. Para habilitar este acceso, Dataplex Universal Catalog requiere que se agreguen las cuentas de servicio de Dataplex Universal Catalog con controles administrativos a estos proyectos.

Para Discovery, Dataplex Universal Catalog agrega la cuenta de servicio de Dataproc Metastore a los buckets de Cloud Storage. Si tienes tu propio clúster de Dataproc Metastore, es posible que desees que el lake de Dataplex Universal Catalog use tu servicio de Dataproc Metastore, lo que es una opción cuando creas tu lake.

Si eliges agregar un bucket de Cloud Storage con acceso detallado a un lake, Dataplex Universal Catalog proporcionará acceso completo a ese bucket a través del lake, ya que los permisos de Dataplex Universal Catalog se propagan a todos los objetos del bucket. Si necesitas un acceso detallado, te recomendamos que dividas los datos de tu bucket en varios buckets.

¿Qué sigue?