Agrega una zona

En este documento, se describen las zonas de Dataplex Universal Catalog y cómo agregarlas a tu lake de Dataplex Universal Catalog.

Descripción general

Las zonas de Dataplex Universal Catalog son entidades con nombre dentro de un lake de Dataplex Universal Catalog. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados que constan de varios recursos, como buckets de Cloud Storage, conjuntos de datos de BigQuery y tablas de BigQuery.

Un lake puede incluir una o más zonas. Si bien una zona solo puede formar parte de un lago, puede contener activos que apuntan a recursos que forman parte de proyectos fuera de su proyecto principal.

Puedes seleccionar configuraciones para una zona en Dataplex Universal Catalog. Puedes elegir entre dos tipos de zonas: sin procesar y seleccionadas.

Zonas de datos sin procesar

Las zonas sin procesar almacenan datos estructurados, datos semiestructurados, como archivos CSV y archivos JSON, y datos no estructurados en cualquier formato de fuentes externas. Las zonas sin procesar son útiles para organizar los datos sin procesar antes de realizar cualquier transformación. Los datos se pueden almacenar en buckets de Cloud Storage o en conjuntos de datos de BigQuery.

Las zonas sin procesar admiten la granularidad a nivel del bucket o del conjunto de datos para los permisos de lectura y escritura. No hay restricciones sobre el tipo de datos que se pueden almacenar en las zonas sin procesar.

Zonas de datos seleccionados

Las zonas seleccionadas almacenan datos estructurados. Los datos se pueden almacenar en buckets de Cloud Storage o en conjuntos de datos de BigQuery.

Los formatos compatibles con los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Las zonas seleccionadas son útiles para organizar los datos que requieren procesamiento antes de usarse para el análisis o para entregar los datos que están listos para el análisis.

En el caso de las tablas de BigQuery, debes tener un esquema bien definido y particiones de estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona organizada, los datos deben cumplir con el esquema definido para la tabla sin desviación del esquema. Esto significa que los datos deben ser compatibles con el esquema definido para la tabla y que las particiones nuevas no deben tener un esquema que entre en conflicto con el esquema de la tabla.

Las zonas seleccionadas admiten la granularidad a nivel del bucket de Cloud Storage o del conjunto de datos de BigQuery para los permisos de lectura y escritura.

Antes de comenzar

Antes de agregar zonas a un lake, debes tener un lake. Si aún no lo hiciste, crea un lake.

La mayoría de los comandos gcloud lake requiere una ubicación. Puedes especificar la ubicación configurando el parámetro --location.

Roles obligatorios

Para obtener el permiso que necesitas para agregar una zona, pídele a tu administrador que te otorgue el rol de IAM de Administrador de Dataplex (roles/dataplex.admin) en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene el permiso dataplex.lakes.create, que se requiere para agregar una zona.

También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.

Agrega una zona

Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero seguir usando tu lake mientras se crea la zona.

Para agregar una zona a un lago existente, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a Dataplex Universal Catalog.

    Ir a Dataplex

  2. Navega a la vista Administrar.

  3. En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una zona.

  4. En la pestaña Zonas, haz clic en Agregar zona.

  5. Ingresa un nombre visible para tu zona.

  6. Haz clic en el menú Tipo. Elige Raw Zone o Curated Zone. Obtén más información sobre los tipos de zonas compatibles.

  7. Opcional: Ingresa una descripción.

  8. En Ubicaciones de datos, selecciona Regional o Multirregional. Lo que elijas no se podrá cambiar más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.

  9. Opcional: Habilita el descubrimiento de metadatos, que permite que Dataplex Universal Catalog analice y extraiga automáticamente los metadatos de los datos en tu zona:

    1. Haz clic en Configuración del Descubrimiento.

    2. Asegúrate de que esté seleccionada la opción Habilitar el descubrimiento de metadatos.

    3. Opcional: En Patrones de inclusión, enumera los archivos que se incluirán en los análisis de descubrimiento.

    4. Opcional: En Patrones de exclusión, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas patrones de inclusión y exclusión, se aplicarán primero los de exclusión.

    5. Haz clic en el menú Repeticiones y selecciona una frecuencia. Si seleccionas Personalizado, en el campo Programación, ingresa una programación del trabajo. De lo contrario, el valor de Programar se completará automáticamente.

    6. Haz clic en el menú Zona horaria y selecciona una zona horaria.

  10. Haz clic en Crear.

REST

Para agregar una zona, usa el método lakes.zones.create.

La zona puede tardar unos minutos en crearse.

Cuando la creación de la zona se realiza con éxito, la zona ingresa automáticamente al estado activo. Si falla, el lago se revierte a su estado anterior.

Después de crear la zona, puedes asignar los datos almacenados en buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos a tu zona. Para obtener más información, consulta Cómo agregar un recurso.

¿Qué sigue?