このドキュメントでは、Dataplex レイクの作成方法について説明します。Dataplex をサポートする任意のリージョンにレイクを作成できます。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
アクセス制御
レイクを作成して管理するには、事前定義ロール
roles/dataplex.admin
またはroles/dataplex.editor
が付与されていることを確認してください。詳細については、単一のロールを付与するをご覧ください。別のプロジェクトの Cloud Storage バケットをレイクに接続するには、次のコマンドを実行して、バケットに対する管理者ロールを次の Dataplex サービス アカウントに付与します。
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
メタストアを作成する
Spark クエリで Hive Metastore を使用して Dataplex メタデータにアクセスするには、Dataproc Metastore サービス インスタンスを Dataplex レイクに関連付けます。Dataplex レイクに gRPC 対応の Dataproc Metastore(バージョン 3.1.2 以降)を関連付ける必要があります。
Dataproc Metastore サービスを作成します。
Dataproc Metastore サービス インスタンスを構成して、(デフォルトの Thrift Metastore エンドポイントではなく)gRPC エンドポイントを公開します。
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
gRPC エンドポイントを表示します。
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
レイクを作成する
Console
Google Cloud コンソールで、Dataplex に移動します。
[管理] ビューに移動します。
[
作成] をクリックします。[表示名]を入力します。
レイク ID は自動的に生成されます。必要に応じて、ご自身の ID を指定できます。リソースの命名規則をご覧ください。
(省略可)説明を入力します。
レイクを作成する [リージョン] を指定します。
特定のリージョン(
us-central1
など)で作成されたレイクの場合、ゾーン設定に応じてシングルリージョン(us-central1
)データとマルチリージョン(us multi-region
)データの両方をアタッチできます。省略可:レイクにラベルを追加します。
省略可: [Metastore] セクションで、[Metastore service] メニューをクリックし、始める前にセクションで作成したサービスを選択します。
[作成] をクリックします。
gcloud
レイクを作成するには、gcloud alpha dataplex lakes create
コマンドを使用します。
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
次のように置き換えます。
LAKE
: 新しいレイクの名前LOCATION
: Google Cloud リージョンを指します。k1=v1,k2=v2,k3=v3
: 使用されるラベル(存在する場合)METASTORE_SERVICE
: Dataproc Metastore サービス(作成されている場合)
REST
湖を作成するには、lakes.create メソッドを使用します。
次のステップ
- レイクにゾーンを追加する方法を学習する。
- アセットをゾーンにアタッチする方法を確認する。
- レイクを保護する方法を学習する。
- レイクを管理する方法を学習する。