En este documento se ofrecen directrices y prácticas recomendadas para usar Dataplex Universal Catalog.
Elige un proyecto para tu lago
Cuando selecciones el proyecto en el que alojar tu lake, ten en cuenta los siguientes factores:
El proyecto debe pertenecer al mismo perímetro de Controles de Servicio de VPC que los datos que se van a incluir en el lake.
La cuenta de servicio del lake requiere permisos de administrador en los conjuntos de datos de BigQuery o en los cubos de Cloud Storage. Universal Catalog de Dataplex crea tablas externas en BigQuery para las tablas descubiertas en Cloud Storage. Dataplex Universal Catalog también pone a disposición los metadatos de las tablas de BigQuery y las tablas descubiertas en el bucket de Cloud Storage en un servicio de Dataproc Metastore. El Dataproc Metastore se encuentra en el proyecto del lago de datos.
Configuración y limitaciones de Cloud Storage
Región: Dataplex Universal Catalog admite segmentos de una sola región y de varias regiones en algunas Google Cloud regiones.
Clase de almacenamiento: se admiten los segmentos de Cloud Storage de todas las clases de almacenamiento (Standard, Nearline, Coldline y Archive). Se pueden aplicar costes adicionales de recuperación de datos si se accede a datos de Nearline, Coldline o Archive, o si se analizan.
LCA de segmento: el catálogo universal de Dataplex solo admite segmentos de Cloud Storage con controles de acceso uniformes. No se admiten controles de acceso pormenorizados.
Pagos del solicitante: no se admiten los segmentos de Cloud Storage con la función Pagos del solicitante habilitada.
Guía sobre seguridad y permisos
Para usar Dataplex Universal Catalog, debes añadir las cuentas de servicio de Dataplex Universal Catalog como cuentas de servicio administrativas en los buckets y conjuntos de datos gestionados.
Dataplex Universal Catalog permite a los analistas acceder a los contenedores de Cloud Storage y a los conjuntos de datos de BigQuery de muchos proyectos. Para habilitar este acceso, Dataplex Universal Catalog requiere que se añadan las cuentas de servicio de Dataplex Universal Catalog con controles administrativos a estos proyectos.
En Discovery, Dataplex Universal Catalog añade la cuenta de servicio de Dataproc Metastore a los segmentos de Cloud Storage. Si tienes tu propio clúster de Dataproc Metastore, puede que quieras que el lake de Universal Catalog de Dataplex use tu servicio de Dataproc Metastore, lo cual es una opción cuando creas tu lake.
Si decides añadir un segmento de Cloud Storage con acceso preciso a un lago, Dataplex Universal Catalog proporcionará acceso completo a ese segmento a través del lago, ya que los permisos de Dataplex Universal Catalog se propagan a todos los objetos del segmento. Si necesitas un acceso más específico, te recomendamos que dividas los datos de tu contenedor en varios contenedores.