Concepts de base de Dataproc Metastore

Utilisez les concepts suivants pour comprendre le fonctionnement de Dataproc Metastore et les différentes fonctionnalités que vous pouvez utiliser avec votre service.

Versions de Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 utilise un facteur de scaling pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Après avoir créé un Dataproc Metastore 2, vous pouvez augmenter ou diminuer la capacité du service en modifiant le facteur de scaling.

  • Dataproc Metastore 2 est la nouvelle génération du service. En plus des fonctionnalités de Dataproc Metastore, il offre une évolutivité horizontale. Pour en savoir plus, consultez Fonctionnalités et avantages.

  • Dataproc Metastore 2 propose un forfait différent de celui de Dataproc Metastore. Pour en savoir plus, consultez les forfaits et les configurations de scaling.

Dataproc Metastore 1

Dataproc Metastore 1 utilise des niveaux de service pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Les niveaux de service fournissent une quantité prévisible et prédéterminée de ressources.

Vérifier votre version de Dataproc Metastore

Vous pouvez vérifier la version de Dataproc Metastore que vous utilisez dans la consoleGoogle Cloud .

  • Dataproc Metastore 2 : le tableau de configuration contient la valeur Édition Enterprise – Région unique.
  • Dataproc Metastore 1 : le tableau de configuration contient l'une des valeurs suivantes : Tier: DEVELOPER ou Tier: ENTERPRISE.

Termes courants de Dataproc Metastore

Les termes suivants sont couramment utilisés dans l'écosystème et la documentation Dataproc Metastore.

Services

  • Apache Hive Hive est un système de stockage de données Open Source populaire basé sur Apache Hadoop. Hive propose un langage de requête semblable à SQL appelé HiveQL, utilisé pour analyser de grands ensembles de données structurés.
  • Metastore Apache Hive Le métastore Hive contient des métadonnées sur les tables Hive, telles que leur schéma et leur emplacement.
  • Dataproc. Dataproc est un service rapide, convivial et entièrement géré sur Google Cloud permettant d'exécuter des charges de travail Apache Spark et Apache Hadoop de manière simple et économique. Après avoir créé un Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Dataproc.
  • Cluster Dataproc. Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Dataproc. Vous pouvez également utiliser Dataproc Metastore avec divers autres clusters, tels que les clusters Apache Hive, Apache Spark ou Presto autogérés.
  • Service Dataproc Metastore Nom de l'instance metastore que vous créez dans Google Cloud. Votre implémentation peut comporter un ou plusieurs services de metastore.
  • Private Service Connect Private Service Connect vous permet de configurer une connexion privée aux métadonnées Dataproc Metastore sur les réseaux VPC. Vous pouvez l'utiliser pour la mise en réseau en remplacement de l'appairage de réseaux VPC.
  • VPC Service Controls. VPC Service Controls vous aide à limiter les risques d'exfiltration de données à partir des services Google Cloud en vous permettant de créer des périmètres qui protègent les ressources et les données des services que vous spécifiez explicitement.

Concepts

  • Tables. Toutes les applications Hive sont associées à des tables internes gérées ou des tables externes non gérées qui stockent vos données.
  • Répertoire d'entrepôt Hive Emplacement par défaut où les données des tables gérées sont stockées.
  • Bucket d'artefacts. Bucket Cloud Storage créé automatiquement dans votre projet à chaque service metastore que vous créez. Ce bucket peut être utilisé pour stocker les artefacts de votre service, tels que les métadonnées exportées et les données des tables gérées. Par défaut, le bucket d'artefacts stocke le répertoire d'entrepôt par défaut de votre service Dataproc Metastore.
  • Points de terminaison. Un service Dataproc Metastore permet aux clients d'accéder aux métadonnées Hive Metastore stockées via un ou plusieurs points de terminaison réseau. Dataproc Metastore fournit des URI pour ces points de terminaison.
  • Protocoles de point de terminaison Protocole réseau utilisé pour la communication entre Dataproc Metastore et les clients Hive Metastore. Dataproc Metastore est compatible avec les points de terminaison Apache Thrift et gRPC.
  • Fédération de métadonnées. Fonctionnalité qui vous permet d'accéder aux métadonnées stockées dans plusieurs instances Dataproc Metastore.
  • Versions auxiliaires : Fonctionnalité qui vous permet de connecter plusieurs versions de clients Hive au même service Dataproc Metastore.

Concepts du métastore Hive

Pour utiliser un service Dataproc Metastore, vous devez comprendre les concepts de base du métastore Hive. Pour en savoir plus, consultez Hive Metastore.

Configuration réseau requise

Le service Dataproc Metastore nécessite un accès réseau pour fonctionner correctement. Pour en savoir plus, consultez Configurer les exigences réseau.

Configurations de projet

Il existe plusieurs configurations de projet possibles que vous pouvez utiliser lorsque vous déployez un cluster Dataproc et un service Dataproc Metastore. Pour en savoir plus, consultez Déploiement sur plusieurs projets.

Étapes suivantes