En esta guía, aprenderás a crear un lake de Dataplex con
La consola de Google Cloud, gcloud CLI o el método de la API de lakes.create
.
Puedes crear tu lake en cualquiera de las regiones que a Dataplex.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Control de acceso
Asegúrate de tener los roles predefinidos
roles/dataplex.admin
oroles/dataplex.editor
para que puedas crear y administrar tu lago. Sigue los pasos en la documentación de IAM para otorgar roles.Para conectar un bucket de Cloud Storage de otro proyecto a tu lake, otorga a la siguiente cuenta de servicio de Dataplex administrador en el bucket ejecutando el siguiente comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un almacén de metadatos
Puedes acceder a los metadatos de Dataplex con Hive Metastore en Spark las consultas mediante la asociación de instancia de servicio de Dataproc Metastore con tu Lake de Dataplex. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex.
Crea un servicio de Dataproc Metastore.
Configura la instancia del servicio de Dataproc Metastore para que exponga un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta el siguiente solicitud de actualización a la API:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Consulta el extremo gRPC. Ejecuta el siguiente comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake de Dataplex.
En los siguientes pasos, se muestra cómo crear un lake de Dataplex.
Console
Ve a Dataplex en la consola de Google Cloud.
Ir a Dataplex
Ve a la vista Administrar.
Haga clic en
Crear.Ingresa un Nombre visible.
El ID del lake se genera automáticamente. Si lo prefieres, también puede proporcionar su propia ID. Consulta Convención de nomenclatura de recursos.
Ingresa una Descripción (opcional).
Especifica la región en la que se creará el lake.
En el caso de los lakes creados en una región determinada (por ejemplo,
us-central1
), se pueden adjuntar datos de una sola región (us-central1
) y datos multirregionales (us multi-region
) según la configuración de la zona.Opcional: Agrega etiquetas a tu lake.
Opcional: En la sección Metastore, haz clic en el servicio de Metastore. y selecciona el servicio que creaste en la sección Antes de comenzar sección.
Haz clic en Crear.
gcloud
Usa el siguiente comando gcloud preview dataplex lake create
para crear un
lake:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Reemplaza lo siguiente:
LAKE
: Es el nombre del nuevo lake.LOCATION
: Se refiere a una región de Google Cloud.k1=v1,k2=v2,k3=v3
: Son las etiquetas usadas (si las hay).METASTORE_SERVICE
: El servicio de Dataproc Metastore, si se creó uno.
REST
Sigue las instrucciones de la API para crear un lago con el Explorador de API.
Próximos pasos
- Obtén más información sobre cómo organizar tus datos.
en lakes y zonas.
- Agrega zonas a tu lake.
- Adjunta recursos a tus zonas.
- Obtén información para proteger tu lake.
- Obtén más información sobre cómo administrar tu lake.