このドキュメントでは、Dataplex Universal Catalog の使用に関するガイダンスとベスト プラクティスについて説明します。
レイクのプロジェクトを選択する
レイクをホストするプロジェクトを選択する際は、次の要素を考慮してください。
プロジェクトは、レイク内が宛先のデータと同じ VPC Service Controls の境界に属している必要があります。
レイク サービス アカウントには、Cloud Storage バケットまたは BigQuery データセットに対する管理者権限が必要です。Dataplex Universal Catalog は、Cloud Storage で検出されたテーブル用に BigQuery に外部テーブルを作成します。また、Dataplex Universal Catalog は、Dataproc Metastore サービスで BigQuery テーブルのメタデータと Cloud Storage バケットで検出されたテーブルも使用できるようにします。Dataproc Metastore はデータレイク プロジェクト内にあります。
Cloud Storage の設定と制限事項
リージョン: Dataplex Universal Catalog は、一部の Google Cloud リージョンで単一リージョン バケットとマルチリージョン バケットをサポートしています。
ストレージ クラス: すべてのストレージ クラスの Cloud Storage バケットがサポートされます(標準、ニアライン、コールドライン、アーカイブ)。Nearline、Coldline、または Archive データへのアクセスまたはスキャンには、追加のデータ取得費用が発生する場合があります。
バケット ACL: Dataplex Universal Catalog は、均一なアクセス制御のみを持つ Cloud Storage バケットをサポートします。きめ細かいアクセス制御はサポートされていません。
リクエスト元による支払い: リクエスト元による支払い機能が有効になっている Cloud Storage バケットはサポートされていません。
セキュリティと権限のガイダンス
Dataplex Universal Catalog では、マネージド バケットとデータセットの管理サービス アカウントとして Dataplex Universal Catalog サービス アカウントを追加する必要があります。
Dataplex Universal Catalog を使用すると、アナリストは多くのプロジェクトにわたって Cloud Storage バケットと BigQuery データセットにアクセスできます。このアクセスを有効にするには、Dataplex Universal Catalog でこれらのプロジェクトへの管理制御権を持つ Dataplex Universal Catalog サービス アカウントを追加する必要があります。
Discovery では、Dataplex Universal Catalog は Dataproc Metastore サービス アカウントを Cloud Storage バケットに追加します。独自の Dataproc Metastore クラスタがある場合は、Dataplex Universal Catalog レイクで Dataproc Metastore サービスを使用することをおすすめします(レイクを作成する場合に使用可能なオプション)。
レイクへのきめ細かいアクセス権を持つ Cloud Storage バケットを追加することを選択すると、Dataplex Universal Catalog の権限がバケット内のすべてのオブジェクトに伝播されるため、Dataplex Universal Catalog はレイクを通じてそのバケットへの完全アクセス権を提供します。きめ細かいアクセス権が必要な場合は、バケット内のデータを複数のバケットに分割することをおすすめします。