Dataproc Metastore の主要なコンセプト

次のコンセプトを使用すると、Dataproc Metastore の仕組みと、サービスで使用できるさまざまな機能が理解しやすくなります。

Dataproc Metastore のバージョン

Dataproc Metastore サービスを作成する際に、Dataproc Metastore 2 サービスまたは Dataproc Metastore 1 サービスを使用するように選択できます。

Dataproc Metastore 2

Dataproc Metastore 2 は、スケーリング ファクタを使用して、サービスが特定の時点で使用するリソースの数を決定します。Dataproc Metastore 2 を作成した後、スケーリング ファクタを変更することで、サービスをスケールアップまたはスケールダウンできます。

  • Dataproc Metastore 2 は、Dataproc Metastore の機能に加えて、水平スケーラビリティを提供する新世代のサービスです。 詳しくは、機能とメリットをご覧ください。

  • Dataproc Metastore 2 のお支払いプランは、Dataproc Metastore とは異なります。詳細については、料金プランとスケーリング構成をご覧ください。

Dataproc Metastore 1

Dataproc Metastore 1 は、サービスティアを使用して、サービスが特定の時点で使用するリソースの数を決定します。サービスティアは、予測可能な事前定義された量のリソースを提供します。

Dataproc Metastore のバージョンを確認する

使用している Dataproc Metastore のバージョンは、Google Cloud コンソールで確認できます。

  • Dataproc Metastore 2: 構成テーブルに「Edition Enterprise - Single Region」という値が含まれています。
  • Dataproc Metastore 1: 構成テーブルには、Tier: DEVELOPER または Tier: ENTERPRISE のいずれかの値が含まれています。

Dataproc Metastore の一般的な用語

次の用語は、Dataproc Metastore エコシステムとドキュメント全体で一般的に使用されます。

サービス

  • Apache Hive。Hive は、Apache Hadoop 上に構築された人気のあるオープンソースのデータ ウェアハウス システムです。Hive には SQL に似た HiveQL というクエリ言語が用意されており、これを使用して大規模な構造化データセットを分析します。
  • Apache Hive メタストア。Hive メタストアには、Hive テーブルに関するスキーマやロケーションなどのメタデータが格納されます。
  • Dataproc。Dataproc は、Apache Spark ワークロードと Apache Hadoop ワークロードを簡単かつコスト効率よく実行できるようにする、高速で使いやすい Google Cloud 上のフルマネージド サービスです。Dataproc Metastore を作成したら、Dataproc クラスタから接続できます。
  • Dataproc クラスタ。Dataproc Metastore サービスを作成したら、Dataproc クラスタから接続できます。Dataproc Metastore は、セルフマネージド Apache Hive、Apache Spark、Presto クラスタなど、他のさまざまなクラスタでも使用できます。
  • Dataproc Metastore サービス。Google Cloud で作成するメタストア インスタンスの名前。実装には、1 つ以上の異なるメタストア サービスを使用できます。
  • Private Service Connect. Private Service Connect を使用すると、VPC ネットワーク全体で Dataproc Metastore メタデータへのプライベート接続を設定できます。VPC ピアリングの代わりにネットワーキングに使用できます。
  • VPC Service Controls。 VPC Service Controls を使用すると、明示的に指定したサービスのリソースとデータを保護する境界を作成できるため、Google Cloud サービスからデータが漏洩するリスクを軽減できます。

コンセプト

  • テーブル。すべての Hive アプリケーションには、データを保存するマネージド内部テーブルまたは非マネージド外部テーブルが含まれています。
  • Hive ウェアハウス ディレクトリ。マネージド テーブルデータが保存されるデフォルトのロケーション。
  • アーティファクト バケット。作成するすべての Metastore サービスとともにプロジェクト内に自動的に作成される Cloud Storage バケット。このバケットは、エクスポートされたメタデータやマネージド テーブルデータなどのサービス アーティファクトを保存するために使用できます。デフォルトでは、アーティファクト バケットに Dataproc Metastore サービスのデフォルトのウェアハウス ディレクトリが保存されます。
  • エンドポイント。Dataproc Metastore サービスにより、クライアントは 1 つ以上のネットワーク エンドポイント経由で、保存された Hive メタストア メタデータにアクセスできます。 Dataproc Metastore は、これらのエンドポイントの URI を提供します。
  • エンドポイント プロトコル。Dataproc Metastore クライアントと Hive Metastore クライアント間の通信に使用されるネットワーク経由のプロトコル。Dataproc Metastore は、Apache Thrift エンドポイントと gRPC エンドポイントをサポートしています。
  • メタデータの連携。複数の Dataproc Metastore インスタンスに保存されているメタデータにアクセスできる機能。
  • 補助バージョン。複数の Hive クライアント バージョンを同じ Dataproc Metastore サービスに接続できる機能。

Hive メタストアのコンセプト

Dataproc Metastore サービスを使用するには、Hive メタストアの基本コンセプトを理解する必要があります。詳細については、Hive Metastore をご覧ください。

ネットワークの要件

Dataproc Metastore サービスが正しく機能するには、ネットワーク アクセスが必要です。詳細については、ネットワーク要件を構成するをご覧ください。

プロジェクト構成

Dataproc クラスタと Dataproc Metastore サービスをデプロイする際に使用できるプロジェクト構成はいくつかあります。詳細については、プロジェクト間のデプロイをご覧ください。

次のステップ