このドキュメントでは、Dataplex の使用に関するガイダンスとベスト プラクティスについて説明します。
レイクのプロジェクトを選択する
レイクをホストするプロジェクトを選択する際は、次の要素を考慮してください。
プロジェクトは、レイク内が宛先のデータと同じ VPC Service Controls の境界に属している必要があります。
レイク サービス アカウントには、Cloud Storage バケットまたは BigQuery データセットに対する管理者権限が必要です。Dataplex は、Cloud Storage で検出されたテーブル用に BigQuery に外部テーブルを作成します。また、Dataplex は、BigQuery テーブルのメタデータと、Cloud Storage バケットで検出されたテーブルを Dataproc Metastore で使用できるようにします。Dataproc Metastore はデータレイク プロジェクト内にあります。
Cloud Storage の設定と制限事項
リージョン: Dataplex は、一部の Google Cloud リージョンで単一リージョン バケットとマルチリージョン バケットをサポートしています。
ストレージ クラス: すべてのストレージ クラスの Cloud Storage バケットがサポートされます(標準、ニアライン、コールドライン、アーカイブ)。ニアライン、コールドライン、またはアーカイブのデータへのアクセスまたはスキャンには、追加のデータ取得費用が発生する場合があります。
バケット ACL: Dataplex は、均一なアクセス制御のみを持つ Cloud Storage バケットをサポートします。きめ細かいアクセス制御はサポートされていません。
リクエスト元による支払い: リクエスト元による支払い機能が有効になっている Cloud Storage バケットはサポートされていません。
セキュリティと権限のガイダンス
Dataplex では、管理対象バケットとデータセットの管理サービス アカウントとして Dataplex サービス アカウントを追加する必要があります。
Dataplex によって、アナリストは多くのプロジェクトにわたって Cloud Storage バケットと BigQuery データセットにアクセスできます。このアクセスを有効にするには、Dataplex でこれらのプロジェクトへの管理制御権を持つ Dataplex サービス アカウントを追加する必要があります。
検出では、Dataplex は Dataproc Metastore サービス アカウントを Cloud Storage バケットに追加します。独自の Dataproc Metastore クラスタがある場合は、Dataplex レイクで Dataproc Metastore サービスを使用することをおすすめします(レイクを作成する場合に使用可能なオプション)。
レイクへのきめ細かいアクセス権を持つ Cloud Storage バケットを追加することを選択すると、Dataplex の権限がバケット内のすべてのオブジェクトに伝播されるため、Dataplex はレイクを通じてそのバケットへの完全アクセス権を提供します。きめ細かいアクセスが必要な場合は、バケット内のデータを複数のバケットに分割することをおすすめします。