データ メッシュを構築する


Dataplex を使用してデータメッシュ アーキテクチャを構築できます。このガイドでは、レイク、ゾーン、アセットなどの Dataplex 機能を使用してデータメッシュを構築する方法について説明します。

データメッシュは、ドメイン データオーナー間でデータの所有権を分散させる組織的、技術的なアプローチです。これらのオーナーは標準的な方法でデータをプロダクトとして提供し、組織の異なる部分間の通信を促進し、データセットを異なるロケーションに分散します。詳しくは、データメッシュ アーキテクチャをご覧ください。

目標

このガイドでは、Dataplex エンティティを使用してデータメッシュ アーキテクチャを構築します。

  • データメッシュのドメインとして機能する Dataplex レイクを作成します。
  • 各ドメイン内の個々のチームを表すレイクにゾーンを追加し、マネージド データ契約を提供します。
  • Cloud Storage に保存されているデータにマッピングするアセットをアタッチします。

料金

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

このドキュメントに記載されているタスクの完了後、作成したリソースを削除すると、それ以上の請求は発生しません。詳細については、クリーンアップをご覧ください。

始める前に

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Dataplex API を有効にします。

    Dataplex API を有効にする

  4. Dataproc Metastore サービスを作成します

Cloud Storage バケットを作成する

データメッシュのデータアセットを保存するには、Cloud Storage バケットが必要です。

Cloud Storage バケットを作成するには、Cloud Storage バケットを作成するの手順に沿って操作します。この操作を行う際は、次の点に注意してください。

  • バケットに名前を付けます。
  • [ロケーション タイプ] で [リージョン] を選択し、メニューから [us-central1(アイオワ)] を選択します。

ドメインを作成する

  1. Google Cloud コンソールで、[Dataplex] ページに移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [作成] をクリックして、データメッシュとして機能する新しいレイクを作成します。

  4. [Deployment name] フィールドに「My data mesh」と入力します。

  5. [リージョン] で、us-central1 を選択します。

  6. 前に作成して構成した Dataproc Metastore サービスを、関連する Metastore として選択します。

  7. [作成] をクリックします。

レイクにゾーンを作成する

Dataplex レイクを作成してドメインを作成したら、ゾーンを使用して、ドメイン内のマネージド データ契約と個々のチームをホストできます。ゾーンには次の 2 種類があります。

  • 未加工ゾーンは通常、外部ソースからの任意の形式でデータを Cloud Storage に保存するために使用されます。未加工のゾーンは、使用可能になる前にさらに処理が必要なデータに役立ちます。

  • キュレートされたゾーンは、特定のファイル形式に準拠し、Hive 互換のディレクトリ レイアウトで編成される必要がある Cloud Storage の構造化データ用に使用されます。利用と分析が可能なデータに最適です。

各ドメイン(たとえば、salescustomersproducts)には、少なくとも未加工のゾーンとキュレートされたゾーンが必要です。

追加のゾーンは、チーム間のデータ契約を管理するために使用されます。また、特定のドメイン内のチームの詳細な内訳を表示することもできます。たとえば、商品ドメイン内の在庫管理などです。データオーナーは、ドメイン内のデータを管理し、データにアクセスできます。

  1. Google Cloud コンソールで、Dataplex の [管理] ビューに移動します。

  2. ゾーンを追加するレイク(My data mesh)の名前をクリックします。

  3. [ゾーン] タブで、 [ゾーンを追加する] をクリックします。

  4. [Deployment name] フィールドに「My sub domain」と入力します。 Dataplex は、ゾーン用の ID を自動的に生成します。

  5. [タイプ] で [未加工のゾーン] を選択します。

  6. [作成] をクリックします。

ゾーンにアセットをアタッチする

データアセットをゾーンにアタッチします。データを含むストレージ リソースであるデータアセットは、Cloud Storage バケットまたは BigQuery データセットになりえます。これは、データ メッシュ アーキテクチャの作成の最終段階です。

  1. Dataplex の [管理] ビューで、作成したレイク(My data mesh)をクリックします。

  2. [ゾーン] タブで、アセットを追加するゾーン(My sub domain)をクリックします。

  3. [アセット] タブで [アセットを追加] をクリックします。

  4. [アセットを追加] をクリックします。

  5. [タイプ] で [Cloud Storage バケット] を選択します。

  6. [Deployment name] フィールドに「Data mesh asset」と入力します。 Dataplex は、アセット ID を自動的に生成します。

  7. [Bucket] フィールドで [参照] をクリックします。

    1. リストからバケットを選択します。
    2. [Select] をクリックします。
  8. [完了]、[続行] の順にクリックします。

  9. [Continue] をクリックして、デフォルトの [Advanced settings] を承認します。

  10. [送信] をクリックします。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

プロジェクトの削除

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

データメッシュ アーキテクチャを削除する

  1. Google Cloud コンソールで、Dataplex の [管理] ビューに移動します。

  2. 削除するレイクで、[ さらに表示] をクリックし、[削除] をクリックします。

  3. 操作を確定するには、「delete」と入力して [レイクを削除] をクリックします。

次のステップ