ゾーンを追加する

このドキュメントでは、Dataplex ゾーンと、Dataplex レイクにゾーンを追加する方法について説明します。

概要

Dataplex ゾーンは、Dataplex レイク内の名前付きエンティティです。それらは、非構造化データ、半構造化データ、構造化データの論理グループであり、Cloud Storage バケット、BigQuery データセット、BigQuery テーブルなどの複数のアセットで構成されます。

レイクには 1 つ以上のゾーンを含めることができます。ゾーンはただ 1 つのレイクの一部となることができますが、親プロジェクト外のプロジェクトの一部であるリソースを指すアセットを含むことができます。

Dataplex でゾーンの構成を選択できます。ゾーンには、未加工とキュレート済のゾーンの 2 種類があり、それらから選択できます。

未加工ゾーン

未加工ゾーンには、構造化データ、CSV ファイルや JSON ファイルなどの半構造化データ、外部ソースからの任意の形式の非構造化データが保存されます。未加工のゾーンは、変換を実行する前に元データをステージングするのに役立ちます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

未加工ゾーンでは、読み取りと書き込みの権限について、バケットレベルまたはデータセット レベルの粒度がサポートされています。未加工ゾーンに保存できるデータの種類に制限はありません。

キュレート済のゾーン

キュレート済のゾーンには、構造化データが保存されます。データは Cloud Storage バケットまたは BigQuery データセットに保存できます。

Cloud Storage バケットでサポートされている形式には、Parquet、Avro、ORC などがあります。キュレートされたゾーンは、分析に使用する前に処理が必要なデータをステージングする場合や、分析の準備が整ったデータを提供する場合に便利です。

BigQuery テーブルの場合、適切に定義されたスキーマと Hive スタイルのパーティションが必要です。キュレート済みのゾーン内の特定のテーブルのスキーマを指定する場合、データはスキーマのドリフトなしでテーブルに定義されたスキーマに準拠する必要があります。つまり、データにはテーブルに定義されているスキーマとの互換性が必要であり、新しいパーティションにはテーブル スキーマと競合するスキーマがあってはならない、ということです。

キュレート済みのゾーンでは、読み取りと書き込みの権限について、Cloud Storage バケットレベルまたは BigQuery データセット レベルの粒度がサポートされています。

始める前に

レイクにゾーンを追加する前に、レイクが必要です。まだない場合は、レイクを作成します。

大部分の gcloud lake コマンドでは、ロケーションを指定する必要があります。--location パラメータを設定して、ロケーションを指定できます。

必要なロール

ゾーンを追加するために必要な権限を取得するには、プロジェクトに対する Dataplex 管理者 roles/dataplex.admin)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。

この事前定義ロールには、ゾーンの追加に必要な dataplex.lakes.create 権限が含まれています。

カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。

ゾーンを追加する

レイクには複数のゾーンを追加できます。同時に追加できるのは 1 つのゾーンだけですが、ゾーンの作成中にもレイクをまだ使用できます。

既存のレイクにゾーンを追加する手順は次のとおりです。

Console

  1. Google Cloud コンソールで、Dataplex に移動します。

    Dataplex に移動

  2. [管理] ビューに移動します。

  3. [管理] ビューで、ゾーンを追加するレイクの名前をクリックします。

  4. [ゾーン] タブで、 [ゾーンを追加する] をクリックします。

  5. ゾーンの表示名を入力します。

  6. [タイプ] メニューをクリックします。[未加工ゾーン] または [キュレートされたゾーン] を選択します。詳しくは、サポートされているゾーンのタイプをご覧ください。

  7. (省略可)説明を入力します。

  8. [データのロケーション] で、[リージョン] または [マルチリージョン] を選択します。選択したものは後で変更できません。単一リージョンとマルチリージョンのデータを同一のゾーン内で混在させることはできません。

  9. 省略可: メタデータ ディスカバリを有効にします。これによって、Dataplex はゾーン内のデータからメタデータを自動的にスキャンして抽出できます。

    1. [見つけやすさの設定] をクリックします。

    2. [メタデータの検出を有効にする] が選択されていることを確認します。

    3. 省略可: [パターンを含める] で、検出スキャンに含めるファイルを一覧表示します。

    4. 省略可: [パターンを除外する] で、検出スキャンで除外するファイルを一覧表示します。含めるパターンと除外するパターンの両方を入力すると、除外するパターンが最初に適用されます。

    5. [繰り返し] メニューをクリックし、頻度を選択します。[カスタム] を選択した場合は、[スケジュール] フィールドにジョブ スケジュールを入力します。それ以外の場合、[スケジュール] の値は自動的に入力されます。

    6. [タイムゾーン] メニューをクリックして、タイムゾーンを選択します。

  10. [作成] をクリックします。

REST

ゾーンを追加するには、lakes.zones.create メソッドを使用します。

ゾーンが作成されるまでに数分かかる場合があります。

ゾーンの作成が成功すると、ゾーンは自動的にアクティブ状態になります。それが失敗した場合、レイクは以前の状態にロールバックされます。

ゾーンを作成すると、Cloud Storage バケットと BigQuery データセットに保存されたデータを、ゾーンにアセットとしてマッピングできます。詳しくは、アセットを追加するをご覧ください。

次のステップ