Crea un lake de Dataplex Universal Catalog

En este documento, se describe cómo crear un lake de Dataplex Universal Catalog. Puedes crear un lake en cualquiera de las regiones que admiten Dataplex Universal Catalog.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex Universal Catalog, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Control de acceso

    1. Para crear y administrar tu lago, asegúrate de tener los roles predefinidos roles/dataplex.admin o roles/dataplex.editor otorgados. Para obtener más información, consulta Otorga un solo rol.

    2. Para adjuntar un bucket de Cloud Storage de otro proyecto a tu lago, otorga a la siguiente cuenta de servicio del catálogo universal de Dataplex un rol de administrador en el bucket ejecutando el siguiente comando:

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Crea un almacén de metadatos

    Puedes acceder a los metadatos de Dataplex Universal Catalog con Hive Metastore en consultas de Spark si asocias una instancia del servicio de Dataproc Metastore con tu lake de Dataplex Universal Catalog. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex Universal Catalog.

    1. Crea un servicio de Dataproc Metastore.

    2. Configura la instancia del servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore):

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Consulta el extremo de gRPC:

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Crea un lake

    Console

    1. En la consola de Google Cloud , ve a Dataplex Universal Catalog.

      Ir a Dataplex

    2. Navega a la vista Administrar.

    3. Haga clic en Crear.

    4. Ingresa un nombre visible.

    5. El ID del lago se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta Convención de asignación de nombres de recursos.

    6. Ingresa una Descripción (opcional).

    7. Especifica la región en la que se creará el lake.

      En el caso de los lakes creados en una región determinada (por ejemplo, us-central1), puedes adjuntar datos de una sola región (us-central1) y datos multirregionales (us multi-region) según la configuración de la zona.

    8. Agrega etiquetas a tu lake (opcional).

    9. Opcional: En la sección Metastore, haz clic en el menú Servicio de Metastore y selecciona el servicio que creaste en la sección Antes de comenzar.

    10. Haz clic en Crear.

    gcloud

    Para crear un lago, usa el comando gcloud alpha dataplex lakes create:

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Reemplaza lo siguiente:

    • LAKE: Nombre del nuevo lago
    • LOCATION: Se refiere a una Google Cloud región.
    • k1=v1,k2=v2,k3=v3: Etiquetas utilizadas (si las hay)
    • METASTORE_SERVICE: El servicio de Dataproc Metastore, si se creó

    REST

    Para crear un lago, usa el método lakes.create.

    Próximos pasos