このページは Cloud Translation API によって翻訳されました。

ゾーンを追加する

このドキュメントでは、Dataplex Universal Catalog ゾーンと、Dataplex Universal Catalog レイクにゾーンを追加する方法について説明します。

概要

Dataplex Universal Catalog ゾーンは、Dataplex Universal Catalog レイク内の名前付きエンティティです。これは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。

レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含む場合があります。

Dataplex Universal Catalog でゾーンの構成を選択できます。ゾーンには、未加工ゾーンとキュレートされたゾーンの 2 種類があり、それらから選択できます。

未加工ゾーン

未加工ゾーンには、構造化データ、半構造化データ（CSV ファイルや JSON ファイルなど）、外部ソースからの任意の形式の非構造化データが保存されます。未加工のゾーンは、任意の変換の実行前に元データをステージングするのに役立ちます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセットレベルの粒度がサポートされています。未加工ゾーンに保存できるデータの種類に制限はありません。

キュレート済のゾーン

キュレートされたゾーンには、構造化データが保存されます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。キュレートされたゾーンは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。

BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレートされたゾーン内の所与のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブルスキーマと競合するスキーマがあってはならない、ということです。

キュレートされたゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセットレベルの粒度がサポートされています。

始める前に

レイクにゾーンを追加する前に、レイクが必要です。まだない場合は、レイクを作成します。

大部分の gcloud lake コマンドでは、ロケーションを指定する必要があります。--location パラメータを設定して、ロケーションを指定できます。

必要なロール

ゾーンを追加するために必要な権限を取得するには、プロジェクトに対する Dataplex 管理者（roles/dataplex.admin）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

この事前定義ロールには、ゾーンを追加するために必要な dataplex.lakes.create 権限が含まれています。

カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。

ゾーンを追加する

レイクには複数のゾーンを追加できます。同時に追加できるのは 1 つのゾーンだけですが、ゾーンの作成中にもレイクをまだ使用できます。

既存のレイクにゾーンを追加する手順は次のとおりです。

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [レイク] ページに移動します。

[レイク] に移動
ゾーンを追加するレイクの名前をクリックします。
[ゾーン] タブで、 [ゾーンを追加する] をクリックします。
ゾーンの表示名を入力します。

注: ゾーン ID は自動的に生成されます。独自の ID を指定することもできます。データセットとデータベースの名前の作成に使用されるため、意味のある ID を選択します。
[タイプ] メニューをクリックします。[未加工ゾーン] または [キュレートされたゾーン] を選択します。詳しくは、サポートされているゾーンのタイプをご覧ください。
（省略可）説明を入力します。
[データのロケーション] で、[リージョン] または [マルチリージョン] を選択します。選択したものは後で変更できません。単一リージョンとマルチリージョンのデータを同一のゾーン内で混在させることはできません。
省略可: メタデータの検出を有効にします。これにより、Dataplex Universal Catalog はゾーン内のデータからメタデータを自動的にスキャンし、抽出することができます。
1. [検出の設定] をクリックします。
2. [メタデータの検出を有効にする] が選択されていることを確認します。
3. 省略可: [パターンを含める] で、検出スキャンに含めるファイルを一覧表示します。
4. 省略可: [パターンを除外する] で、検出スキャンで除外するファイルを一覧表示します。含めるパターンと除外するパターンの両方を入力すると、除外するパターンが最初に適用されます。
5. [繰り返しの頻度] メニューをクリックして、頻度を選択します。[カスタム] を選択した場合は、[スケジュール] フィールドにジョブスケジュールを入力します。それ以外の場合、[スケジュール] の値は自動的に入力されます。
6. [タイムゾーン] メニューをクリックして、タイムゾーンを選択します。
[作成] をクリックします。

REST

ゾーンを追加するには、lakes.zones.create メソッドを使用します。

ゾーンが作成されるまでに数分かかることがあります。

ゾーンの作成が成功すると、ゾーンは自動的にアクティブ状態になります。それが失敗した場合、レイクは以前の状態にロールバックされます。

ゾーンを作成すると、Cloud Storage バケットと BigQuery データセットに保存されたデータを、ゾーンのアセットとしてマッピングできます。詳しくは、アセットを追加するをご覧ください。

次のステップ

バケットを管理する方法を学習する。
レイクを作成する方法を学習する。
Cloud 監査ログの詳細を確認する。