Añadir una zona

En este documento se describe qué son las zonas de Universal Catalog de Dataplex y cómo añadirlas a tu lago de Universal Catalog de Dataplex.

Información general

Las zonas de Dataplex Universal Catalog son entidades con nombre dentro de un lago de Dataplex Universal Catalog. Se trata de agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, que constan de varios recursos, como los contenedores de Cloud Storage, los conjuntos de datos de BigQuery y las tablas de BigQuery.

Un lago puede incluir una o varias zonas. Aunque una zona solo puede formar parte de un lago, puede contener recursos que apunten a recursos que formen parte de proyectos ajenos a su proyecto principal.

Puedes seleccionar configuraciones para una zona en Dataplex Universal Catalog. Puedes elegir entre dos tipos de zonas: sin procesar y seleccionadas.

Zonas sin procesar

Las zonas sin procesar almacenan datos estructurados, datos semiestructurados (como archivos CSV y JSON) y datos sin estructurar en cualquier formato de fuentes externas. Las zonas sin procesar son útiles para almacenar datos sin procesar antes de realizar cualquier transformación. Los datos se pueden almacenar en segmentos de Cloud Storage o en conjuntos de datos de BigQuery.

Las zonas sin procesar admiten una granularidad a nivel de contenedor o de conjunto de datos para los permisos de lectura y escritura. No hay restricciones en cuanto al tipo de datos que se pueden almacenar en las zonas sin procesar.

Zonas de datos procesados

Almacena datos estructurados de zonas seleccionadas. Los datos se pueden almacenar en segmentos de Cloud Storage o en conjuntos de datos de BigQuery.

Los formatos admitidos para los contenedores de Cloud Storage son Parquet, Avro y ORC. Las zonas de curación son útiles para organizar los datos que requieren un tratamiento antes de usarse para el análisis o para servir los datos que están listos para el análisis.

En el caso de las tablas de BigQuery, debes tener un esquema bien definido y particiones de estilo Hive. Cuando proporcione un esquema para una tabla determinada de una zona organizada, los datos deben ajustarse al esquema definido para la tabla sin que se produzcan cambios en el esquema. Esto significa que los datos deben ser compatibles con el esquema definido para la tabla y que las nuevas particiones no deben tener un esquema que entre en conflicto con el de la tabla.

Las zonas de datos organizados admiten la granularidad a nivel de segmento de Cloud Storage o de conjunto de datos de BigQuery para los permisos de lectura y escritura.

Antes de empezar

Para poder añadir zonas a un lago, primero debes tener un lago. Si aún no lo has hecho, crea un lago.

La mayoría de los comandos de gcloud lake requieren una ubicación. Puedes especificar la ubicación definiendo el parámetro --location.

Roles obligatorios

Para obtener el permiso que necesitas para añadir una zona, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Administrador de Dataplex (roles/dataplex.admin) en el proyecto. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido incluye el permiso dataplex.lakes.create, que es necesario para añadir una zona.

También puedes obtener este permiso con roles personalizados u otros roles predefinidos.

Añadir una zona

Puedes añadir varias zonas a tu lago. Puedes añadir una zona a la vez, pero seguir usando tu lago mientras se crea la zona.

Para añadir una zona a un lago, sigue estos pasos:

Consola

  1. En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.

    Ir a Lagos

  2. Haga clic en el nombre del lago al que quiera añadir una zona.

  3. En la pestaña Zonas, haz clic en Añadir zona.

  4. Introduzca un nombre visible para la zona.

  5. Haz clic en el menú Tipo. Elige Zona sin procesar o Zona seleccionada. Más información sobre los tipos de zonas admitidos

  6. Opcional: Escribe una descripción.

  7. En Ubicaciones de datos, selecciona Regional o Multirregional. No podrás cambiar tu elección más adelante. No se pueden combinar datos de una sola región y de varias regiones en la misma zona.

  8. Opcional: Habilita el descubrimiento de metadatos, que permite a Dataplex Universal Catalog analizar y extraer automáticamente metadatos de los datos de tu zona:

    1. Haz clic en Configuración de descubrimiento.

    2. Asegúrate de que la opción Habilitar detección de metadatos esté seleccionada.

    3. Opcional: En Incluir patrones, enumera los archivos que quieras incluir en los análisis de detección.

    4. Opcional: En Excluir patrones, enumera los archivos que quieras excluir de los análisis de detección. Si introduce patrones de inclusión y de exclusión, los patrones de exclusión se aplican primero.

    5. Haz clic en el menú Repeticiones y selecciona una frecuencia. Si seleccionas Personalizado, en el campo Programación, introduce una programación de trabajo. De lo contrario, el valor de Programar se rellenará automáticamente.

    6. Haz clic en el menú Zona horaria y selecciona una zona horaria.

  9. Haz clic en Crear.

REST

Para añadir una zona, usa el método lakes.zones.create.

La zona puede tardar unos minutos en crearse.

Si la zona se crea correctamente, pasará automáticamente al estado activo. Si falla, el lago vuelve a su estado anterior.

Una vez que hayas creado tu zona, podrás asignar datos almacenados en segmentos de Cloud Storage y conjuntos de datos de BigQuery como recursos a tu zona. Para obtener más información, consulta Añadir un recurso.

Siguientes pasos