Ajouter une zone

Ce document décrit les zones Dataplex Universal Catalog et explique comment les ajouter à votre lac Dataplex Universal Catalog.

Présentation

Les zones Dataplex Universal Catalog sont des entités nommées dans un lac Dataplex Universal Catalog. Il s'agit de regroupements logiques de données non structurées, semi-structurées et structurées, qui se composent de plusieurs composants, tels que des buckets Cloud Storage, des ensembles de données BigQuery et des tables BigQuery.

Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse faire partie que d'un seul lac, elle peut contenir des composants qui pointent vers des ressources faisant partie de projets en dehors de son projet parent.

Vous pouvez sélectionner des configurations pour une zone dans le catalogue universel Dataplex. Vous avez le choix entre deux types de zones : brutes et organisées.

Zones brutes

Les zones brutes stockent les données structurées, les données semi-structurées telles que les fichiers CSV et JSON, ainsi que les données non structurées dans n'importe quel format provenant de sources externes. Les zones brutes sont utiles pour organiser les données brutes avant d'effectuer des transformations. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les zones brutes sont compatibles avec la précision au niveau du bucket ou de l'ensemble de données pour les autorisations de lecture et d'écriture. Il n'existe aucune restriction concernant le type de données pouvant être stockées dans les zones brutes.

Zones organisées

Les zones organisées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.

Les formats Parquet, Avro et ORC sont compatibles avec les buckets Cloud Storage. Les zones organisées sont utiles pour préparer les données qui doivent être traitées avant d'être utilisées pour l'analyse, ou pour diffuser les données qui sont prêtes à être analysées.

Pour les tables BigQuery, vous devez disposer d'un schéma bien défini et de partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une zone organisée, les données doivent être conformes au schéma défini pour la table sans dérive de schéma. Cela signifie que les données doivent être compatibles avec le schéma défini pour la table, et que les nouvelles partitions ne doivent pas avoir de schéma en conflit avec celui de la table.

Les zones organisées sont compatibles avec la granularité au niveau des bucket Cloud Storage ou des ensembles de données BigQuery pour les autorisations de lecture et d'écriture.

Avant de commencer

Pour pouvoir ajouter des zones à un lac, vous devez d'abord en créer un. Si ce n'est pas déjà fait, créez un lac.

La plupart des commandes gcloud lake nécessitent un emplacement. Vous pouvez spécifier l'emplacement en définissant le paramètre --location.

Rôles requis

Pour obtenir l'autorisation nécessaire pour ajouter une zone, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Dataplex (roles/dataplex.admin) sur le projet. Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient l'autorisation dataplex.lakes.create, qui est requise pour ajouter une zone.

Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter une zone

Vous pouvez ajouter plusieurs zones à votre lac. Vous pouvez ajouter une zone à la fois, mais vous pouvez continuer à utiliser votre lac pendant la création de la zone.

Pour ajouter une zone à un lac existant, procédez comme suit :

Console

  1. Dans la console Google Cloud , accédez à Dataplex Universal Catalog.

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Dans la vue Gérer, cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.

  4. Dans l'onglet Zones, cliquez sur Ajouter une zone .

  5. Saisissez un nom à afficher pour votre zone.

  6. Cliquez sur le menu Type. Sélectionnez Zone brute ou Zone organisée. En savoir plus sur les types de zones acceptés

  7. Facultatif : saisissez une description.

  8. Sous Emplacements des données, sélectionnez Régional ou Multirégional. Vous ne pourrez pas modifier votre choix par la suite. Il n'est pas possible de mélanger des données régionales et multirégionales dans la même zone.

  9. Facultatif : Activez la découverte des métadonnées, qui permet à Dataplex Universal Catalog d'analyser et d'extraire automatiquement les métadonnées des données de votre zone :

    1. Cliquez sur Paramètres de découverte.

    2. Assurez-vous que l'option Activer la découverte des métadonnées est sélectionnée.

    3. Facultatif : Sous Inclure les modèles, listez les fichiers à inclure dans les analyses de découverte.

    4. Facultatif : Sous Modèles d'exclusion, listez les fichiers à exclure des analyses de découverte. Si vous saisissez à la fois des modèles d'inclusion et d'exclusion, les modèles d'exclusion sont appliqués en premier.

    5. Cliquez sur le menu Répétitions, puis sélectionnez une fréquence. Si vous sélectionnez Personnalisé, saisissez une planification de job dans le champ Planification. Sinon, la valeur Schedule est renseignée automatiquement.

    6. Cliquez sur le menu Fuseau horaire, puis sélectionnez un fuseau horaire.

  10. Cliquez sur Créer.

REST

Pour ajouter une zone, utilisez la méthode lakes.zones.create.

La création de la zone peut prendre quelques minutes.

Une fois la zone créée, elle passe automatiquement à l'état actif. En cas d'échec, le lac est restauré à son état précédent.

Une fois votre zone créée, vous pouvez mapper les données stockées dans des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments de votre zone. Pour en savoir plus, consultez Ajouter un élément.

Étapes suivantes