Cette page explique comment configurer Datastream pour la réplication dans les tables BigLake Iceberg de BigQuery.
Les tables BigLake Iceberg offrent la même expérience entièrement gérée que les tables BigQuery standards, mais stockent les données dans des buckets Cloud Storage détenus par le client, au format de table Apache Iceberg et au format de fichier Parquet. Vous pouvez interroger et analyser des données à l'aide des fonctionnalités BigQuery tout en conservant les données dans vos propres buckets de stockage.
Configurer le streaming vers des tables BigLake Iceberg
Pour configurer votre flux afin d'ingérer des données dans des tables BigLake Iceberg :
- Créez un bucket Cloud Storage dans lequel vous souhaitez stocker vos données.
- créer une connexion à une ressource cloud dans BigQuery ; Pour savoir comment créer ce type de connexion, consultez Créer et configurer une connexion de ressource Cloud.
Obtenez l'identifiant du compte de service de connexion :
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAME
Accordez à votre connexion de ressource Cloud l'accès au bucket Cloud Storage que vous avez créé. Pour ce faire, ajoutez l'autorisation IAM
storage.admin
au compte de service de la connexion :gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.admin
Créez un flux de tables BigLake Iceberg.
Pour savoir comment créer un flux de tables BigLake Iceberg à l'aide de la console Google Cloud , consultez Créer un flux.
Pour savoir comment créer une requête permettant de diffuser des données dans des tables BigLake Iceberg à l'aide de REST,
Google Cloud CLI
ou Terraform, consultez Gérer les flux à l'aide de l'API.
Étapes suivantes
- Pour en savoir plus sur les flux, consultez Cycle de vie des flux.
- Pour savoir comment créer un flux, consultez Créer un flux.
- Pour savoir comment créer un profil de connexion que vous pouvez utiliser avec un flux de tables BigLake Iceberg, consultez Créer un profil de connexion pour BigQuery.