Dataplex を使用してデータメッシュ アーキテクチャを構築できます。このガイドでは、レイク、ゾーン、アセットなどの Dataplex 機能を使用してデータメッシュを構築する方法について説明します。
データメッシュは、ドメイン データオーナー間でデータの所有権を分散させる組織的、技術的なアプローチです。これらのオーナーは標準的な方法でデータをプロダクトとして提供し、組織の異なる部分間の通信を促進し、データセットを異なるロケーションに分散します。詳しくは、データメッシュ アーキテクチャをご覧ください。
目標
このガイドでは、Dataplex エンティティを使用してデータメッシュ アーキテクチャを構築します。
- データメッシュのドメインとして機能する Dataplex レイクを作成します。
- 各ドメイン内の個々のチームを表すレイクにゾーンを追加し、マネージド データ契約を提供します。
- Cloud Storage に保存されているデータにマッピングするアセットをアタッチします。
料金
このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。
料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。
このドキュメントに記載されているタスクの完了後、作成したリソースを削除すると、それ以上の請求は発生しません。詳細については、クリーンアップをご覧ください。
始める前に
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Dataplex API を有効にします。
Cloud Storage バケットを作成する
データメッシュのデータアセットを保存するには、Cloud Storage バケットが必要です。
Cloud Storage バケットを作成するには、Cloud Storage バケットを作成するの手順に沿って操作します。この操作を行う際は、次の点に注意してください。
- バケットに名前を付けます。
- [ロケーション タイプ] で [リージョン] を選択し、メニューから [us-central1(アイオワ)] を選択します。
ドメインを作成する
Google Cloud コンソールで、[Dataplex] ページに移動します。
[管理] ビューに移動します。
[作成] をクリックして、データメッシュとして機能する新しいレイクを作成します。
[Deployment name] フィールドに「
My data mesh
」と入力します。[リージョン] で、
us-central1
を選択します。前に作成して構成した Dataproc Metastore サービスを、関連する Metastore として選択します。
[作成] をクリックします。
レイクにゾーンを作成する
Dataplex レイクを作成してドメインを作成したら、ゾーンを使用して、ドメイン内のマネージド データ契約と個々のチームをホストできます。ゾーンには次の 2 種類があります。
未加工ゾーンは通常、外部ソースからの任意の形式でデータを Cloud Storage に保存するために使用されます。未加工のゾーンは、使用可能になる前にさらに処理が必要なデータに役立ちます。
キュレートされたゾーンは、特定のファイル形式に準拠し、Hive 互換のディレクトリ レイアウトで編成される必要がある Cloud Storage の構造化データ用に使用されます。利用と分析が可能なデータに最適です。
各ドメイン(たとえば、sales
、customers
、products
)には、少なくとも未加工のゾーンとキュレートされたゾーンが必要です。
追加のゾーンは、チーム間のデータ契約を管理するために使用されます。また、特定のドメイン内のチームの詳細な内訳を表示することもできます。たとえば、商品ドメイン内の在庫管理などです。データオーナーは、ドメイン内のデータを管理し、データにアクセスできます。
Google Cloud コンソールで、Dataplex の [管理] ビューに移動します。
ゾーンを追加するレイク(
My data mesh
)の名前をクリックします。[ゾーン] タブで、
[ゾーンを追加する] をクリックします。[Deployment name] フィールドに「
My sub domain
」と入力します。 Dataplex は、ゾーン用の ID を自動的に生成します。[タイプ] で [未加工のゾーン] を選択します。
[作成] をクリックします。
ゾーンにアセットをアタッチする
データアセットをゾーンにアタッチします。データを含むストレージ リソースであるデータアセットは、Cloud Storage バケットまたは BigQuery データセットになりえます。これは、データ メッシュ アーキテクチャの作成の最終段階です。
Dataplex の [管理] ビューで、作成したレイク(
My data mesh
)をクリックします。[ゾーン] タブで、アセットを追加するゾーン(
My sub domain
)をクリックします。[アセット] タブで
[アセットを追加] をクリックします。[アセットを追加] をクリックします。
[タイプ] で [Cloud Storage バケット] を選択します。
[Deployment name] フィールドに「
Data mesh asset
」と入力します。 Dataplex は、アセット ID を自動的に生成します。[Bucket] フィールドで [参照] をクリックします。
- リストからバケットを選択します。
- [Select] をクリックします。
[完了]、[続行] の順にクリックします。
[Continue] をクリックして、デフォルトの [Advanced settings] を承認します。
[送信] をクリックします。
クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。
プロジェクトの削除
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
データメッシュ アーキテクチャを削除する
Google Cloud コンソールで、Dataplex の [管理] ビューに移動します。
削除するレイクで、[
さらに表示] をクリックし、[削除] をクリックします。操作を確定するには、「
delete
」と入力して [レイクを削除] をクリックします。
次のステップ
- データ処理タスクについて確認する
- データの検出について学習する。
- データ品質タスクの使用について確認する