Gestionar recursos de datos en un lake

En esta página se explica cómo añadir, actualizar y quitar segmentos de Cloud Storage y conjuntos de datos de BigQuery como recursos en zonas de Universal Catalog de Dataplex.

Información general

Un recurso se asigna a los datos almacenados en Cloud Storage o en BigQuery. Puede asignar datos almacenados en proyectos Google Cloud independientes como recursos a una sola zona de un lago. Puedes adjuntar segmentos de Cloud Storage o conjuntos de datos de BigQuery para gestionarlos desde el lago.

Antes de empezar

  • Si aún no lo has hecho, crea un lago y una zona en ese lago.

  • La mayoría de los comandos de gcloud lakes requieren una ubicación. Puedes especificar la ubicación con la marca --location.

Roles obligatorios

  • Para quitar recursos, concede los roles de gestión de identidades y accesos que contengan los permisos dataplex.lakes.delete, dataplex.zones.delete o dataplex.assets.delete. Los roles roles/dataplex.admin y roles/dataplex.editor específicos de Dataplex Universal Catalog se pueden usar para conceder estos permisos.

  • Para añadir recursos, concede los roles de gestión de identidades y accesos que contengan los permisos create - dataplex.lakes.create, dataplex.zones.create o dataplex.assets.create. Los roles roles/dataplex.admin y roles/dataplex.editor contienen estos permisos.

  • También puedes dar permiso a usuarios o grupos mediante los roles antiguos roles/owner y roles/editor.

  • Debes autorizar el servicio Dataplex Universal Catalog en los recursos que se adjunten al lago de Dataplex Universal Catalog. La autorización se concede automáticamente e implícitamente a los recursos del proyecto en el que se crea el lake. En el caso de otros proyectos, autoriza el servicio Dataplex Universal Catalog en los recursos de forma explícita.

Para obtener más información, consulta Gestión de identidades y accesos y control de acceso de Dataplex Universal Catalog.

Asignar roles a segmentos de Cloud Storage

Para adjuntar un bucket de Cloud Storage de otro proyecto a tu lago, debes conceder a la cuenta de servicio de Dataplex Universal Catalog (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, que se obtiene en la página de detalles del lago en la consola) el rol de cuenta de servicio de Dataplex Universal Catalog (roles/dataplex.serviceAgent) en el proyecto que contiene el bucket. Este rol proporciona al servicio Dataplex Universal Catalog el rol de nivel de administrador necesario en el bucket para que se puedan definir permisos en el propio bucket.

Conceder roles para conjuntos de datos de BigQuery

Para adjuntar un conjunto de datos de BigQuery de otro proyecto a tu lake, debes conceder a la cuenta de servicio de Dataplex Universal Catalog el rol Administrador de BigQuery en el conjunto de datos.

Consideraciones sobre los Controles de Servicio de VPC

Dataplex Universal Catalog no infringe los perímetros de Controles de Servicio de VPC. Antes de añadir un recurso al lago, asegúrate de que el bucket o el conjunto de datos subyacente se encuentre en la misma red de Controles de Servicio de VPC que el lago.

Para obtener más información, consulta Controles de Servicio de VPC con Dataplex Universal Catalog.

Añadir un recurso

Si no hay ninguna región de lago de Dataplex Universal Catalog que se solape con la región de uno de los segmentos de Cloud Storage, no podrás añadir el segmento a una zona de tu lago.

Para obtener más información sobre la ubicación de la región de un recurso de Cloud Storage y sobre cómo gestiona Dataplex Universal Catalog la ubicación de un segmento al crear el conjunto de datos de publicación, consulta Recursos regionales.

Para añadir un recurso, sigue estos pasos:

Consola

  1. En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.

    Ir a Lagos

  2. Haz clic en el lago al que quieras añadir un segmento de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lago.

  3. En la pestaña Zonas, haga clic en el nombre de la zona de datos a la que quiera añadir el recurso. Se abrirá la página Zona de datos de esa zona de datos.

  4. En la pestaña Recursos, haga clic en + Añadir recursos. Se abrirá la página Añadir recursos.

  5. Haz clic en Añadir un recurso.

  6. En el campo Tipo, selecciona Conjunto de datos de BigQuery o Contenedor de Cloud Storage.

  7. En el campo Nombre visible, escriba un nombre para el nuevo recurso.

  8. En el campo ID, introduce un ID único para el recurso.

  9. Opcional: Introduce una Descripción.

  10. En el campo Conjunto de datos o Segmento (en función del tipo de recurso), haz clic en Examinar para buscar y seleccionar tu segmento de Cloud Storage o tu conjunto de datos de BigQuery.

  11. Opcional: Si el tipo de recurso es Segmento de Cloud Storage y quieres que el catálogo universal de Dataplex gestione el recurso, selecciona la casilla Actualizar a gestionado. Si eliges esta opción, no tendrás que actualizar el recurso por separado. Esta opción no está disponible para los conjuntos de datos de BigQuery.

  12. Haz clic en Continuar.

  13. Elige el resto de los valores de los parámetros. Para obtener más información sobre la configuración de seguridad, consulta Seguridad de Lake.

  14. Haz clic en Enviar.

  15. Compruebe que ha vuelto a la página de zona de datos y que el nuevo recurso aparece en la lista de recursos.

REST

Para añadir un recurso, usa el método lakes.zones.assets.create.

Si se añade correctamente, la zona de datos pasará automáticamente al estado activo. Si falla, la zona de datos se revierte a su estado correcto anterior.

Actualizar un recurso de un segmento de Cloud Storage

Cuando añades un recurso de tipo segmento de Cloud Storage, Dataplex Universal Catalog publica automáticamente tablas externas de BigQuery para las tablas alojadas en el recurso.

Cuando actualizas un recurso de segmento de Cloud Storage, Dataplex Universal Catalog elimina las tablas externas asociadas y crea tablas de BigLake. Las tablas de BigLake ofrecen una seguridad más precisa, como el enmascaramiento dinámico de datos, y la seguridad a nivel de fila y de columna.

Para actualizar un recurso de un contenedor de Cloud Storage, sigue estos pasos:

Consola

  1. En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.

    Ir a Lagos

  2. Haz clic en el nombre del lago. Se abrirá la página del lago.

  3. En la pestaña Zonas, haga clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haga clic en el nombre del recurso que quiera actualizar.

  5. Haz clic en Cambiar a gestionado.

REST

Para actualizar un recurso de un contenedor, usa el método lakes.zones.assets.patch.

Rebajar la categoría de un recurso de segmento de Cloud Storage

Cuando rebajas la categoría de un recurso de segmento de Cloud Storage, Dataplex Universal Catalog elimina las tablas de BigLake adjuntas y crea tablas externas.

Consola

  1. En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.

    Ir a Lagos

  2. Haz clic en el nombre del lago. Se abrirá la página del lago.

  3. En la pestaña Zonas, haga clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haga clic en el nombre del recurso que quiera actualizar.

  5. Haz clic en Cambiar a una versión anterior de la gestión.

REST

Para cambiar a una versión anterior de un recurso de un bucket, usa el método lakes.zones.assets.patch. Asegúrate de que el campo readAccessMode tenga el valor DIRECT en ResourceSpec.

Quitar un recurso

Quita el recurso de la zona o el lago de datos antes de adjuntarlo a otro.

Para quitar un recurso, sigue estos pasos:

Consola

  1. En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.

    Ir a Lagos

  2. Haga clic en el lago del que quiera quitar un segmento de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos de la que quieras quitar el segmento de Cloud Storage o el conjunto de datos de BigQuery. Se abrirá la página de la zona de datos correspondiente.

  4. En la pestaña Recursos, selecciona el recurso marcando la casilla situada a la izquierda de su nombre.

  5. Haz clic en Eliminar recurso.

  6. En el cuadro de diálogo de confirmación, haz clic en Eliminar.

REST

Para quitar un contenedor, usa el método lakes.zones,assets.delete.

Siguientes pasos