Dataplex Universal Catalog-Lake erstellen

In diesem Dokument wird beschrieben, wie Sie einen Dataplex Universal Catalog-Lake erstellen. Sie können einen Lake in einer beliebigen Region erstellen, die Dataplex Universal Catalog unterstützt.

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Zugriffssteuerung

    1. Damit Sie Ihren Data Lake erstellen und verwalten können, müssen Ihnen die vordefinierten Rollen roles/dataplex.admin oder roles/dataplex.editor zugewiesen sein. Weitere Informationen finden Sie unter Einzelne Rolle zuweisen.

    2. Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Data Lake anhängen möchten, weisen Sie dem folgenden Dataplex Universal Catalog-Dienstkonto eine Administratorrolle für den Bucket zu, indem Sie den folgenden Befehl ausführen:

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Metastore erstellen

    Sie können über Hive Metastore in Spark-Abfragen auf Metadaten des Dataplex Universal Catalog zugreifen, indem Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex Universal Catalog-Lake verknüpfen. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der mit dem Dataplex Universal Catalog-Lake verknüpft ist.

    1. Erstellen Sie einen Dataproc Metastore-Dienst.

    2. Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt (anstelle des standardmäßigen Thrift-Metastore-Endpunkts) verfügbar gemacht wird:

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. gRPC-Endpunkt ansehen:

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Lakes erstellen

    Console

    1. Rufen Sie in der Google Cloud -Console Dataplex Universal Catalog auf.

      Zu Dataplex

    2. Rufen Sie die Ansicht Verwalten auf.

    3. Klicken Sie auf Erstellen.

    4. Geben Sie einen Anzeigenamen ein.

    5. Die Lake-ID wird automatisch für Sie generiert. Sie können auch Ihre eigene ID angeben. Weitere Informationen finden Sie unter Konvention für Ressourcennamen.

    6. Optional: Geben Sie eine Beschreibung ein.

    7. Geben Sie die Region an, in der die Instanz erstellt werden soll.

      Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B. us-central1), können Sie sowohl Daten mit einer Region (us-central1) als auch Daten mit mehreren Regionen (us multi-region) je nach Zoneneinstellungen anhängen.

    8. Optional: Fügen Sie Ihrem Lake Labels hinzu.

    9. Optional: Klicken Sie im Abschnitt Metastore auf das Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorbereitung erstellt haben.

    10. Klicken Sie auf Erstellen.

    gcloud

    Verwenden Sie den Befehl gcloud alpha dataplex lakes create, um einen Data Lake zu erstellen:

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Ersetzen Sie Folgendes:

    • LAKE: Name des neuen Sees
    • LOCATION: bezieht sich auf eine Google Cloud Region
    • k1=v1,k2=v2,k3=v3: verwendete Labels (falls zutreffend)
    • METASTORE_SERVICE: der Dataproc Metastore-Dienst, falls erstellt

    REST

    Verwenden Sie zum Erstellen eines Data Lakes die Methode lakes.create.

    Nächste Schritte