Crea un lake

En esta guía, aprenderás a crear un lake de Dataplex con La consola de Google Cloud, gcloud CLI o el método de la API de lakes.create.

Puedes crear tu lake en cualquiera de las regiones que a Dataplex.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Control de acceso

  1. Asegúrate de tener los roles predefinidos roles/dataplex.admin o roles/dataplex.editor para que puedas crear y administrar tu lago. Sigue los pasos en la documentación de IAM para otorgar roles.

  2. Para conectar un bucket de Cloud Storage de otro proyecto a tu lake, otorga a la siguiente cuenta de servicio de Dataplex administrador en el bucket ejecutando el siguiente comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un almacén de metadatos

Puedes acceder a los metadatos de Dataplex con Hive Metastore en Spark las consultas mediante la asociación de instancia de servicio de Dataproc Metastore con tu Lake de Dataplex. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex.

  1. Crea un servicio de Dataproc Metastore.

  2. Configura la instancia del servicio de Dataproc Metastore para que exponga un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta el siguiente solicitud de actualización a la API:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Consulta el extremo gRPC. Ejecuta el siguiente comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake de Dataplex.

En los siguientes pasos, se muestra cómo crear un lake de Dataplex.

Console

  1. Ve a Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Ve a la vista Administrar.

  3. Haga clic en Crear.

  4. Ingresa un Nombre visible.

  5. El ID del lake se genera automáticamente. Si lo prefieres, también puede proporcionar su propia ID. Consulta Convención de nomenclatura de recursos.

  6. Ingresa una Descripción (opcional).

  7. Especifica la región en la que se creará el lake.

    En el caso de los lakes creados en una región determinada (por ejemplo, us-central1), se pueden adjuntar datos de una sola región (us-central1) y datos multirregionales (us multi-region) según la configuración de la zona.

  8. Opcional: Agrega etiquetas a tu lake.

  9. Opcional: En la sección Metastore, haz clic en el servicio de Metastore. y selecciona el servicio que creaste en la sección Antes de comenzar sección.

  10. Haz clic en Crear.

gcloud

Usa el siguiente comando gcloud preview dataplex lake create para crear un lake:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Reemplaza lo siguiente:

  • LAKE: Es el nombre del nuevo lake.
  • LOCATION: Se refiere a una región de Google Cloud.
  • k1=v1,k2=v2,k3=v3: Son las etiquetas usadas (si las hay).
  • METASTORE_SERVICE: El servicio de Dataproc Metastore, si se creó uno.

REST

Sigue las instrucciones de la API para crear un lago con el Explorador de API.

Próximos pasos