Configurer les tables BigLake Iceberg dans BigQuery

Cette page explique comment configurer Datastream pour la réplication dans les tables BigLake Iceberg de BigQuery.

Les tables BigLake Iceberg offrent la même expérience entièrement gérée que les tables BigQuery standards, mais stockent les données dans des buckets Cloud Storage détenus par le client, au format de table Apache Iceberg et au format de fichier Parquet. Vous pouvez interroger et analyser des données à l'aide des fonctionnalités BigQuery tout en conservant les données dans vos propres buckets de stockage.

Configurer le streaming vers des tables BigLake Iceberg

Pour configurer votre flux afin d'ingérer des données dans des tables BigLake Iceberg :

  1. Créez un bucket Cloud Storage dans lequel vous souhaitez stocker vos données.
  2. créer une connexion à une ressource cloud dans BigQuery ; Pour savoir comment créer ce type de connexion, consultez Créer et configurer une connexion de ressource Cloud.
  3. Obtenez l'identifiant du compte de service de connexion :

    bq show --location=LOCATION --connection --project_id=PROJECT_ID
    CONNECTION_NAME
    
  4. Accordez à votre connexion de ressource Cloud l'accès au bucket Cloud Storage que vous avez créé. Pour ce faire, ajoutez l'autorisation IAM storage.admin au compte de service de la connexion :

    gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \
    --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \
    --role=roles/storage.admin
    
  5. Créez un flux de tables BigLake Iceberg.

    Pour savoir comment créer un flux de tables BigLake Iceberg à l'aide de la console Google Cloud , consultez Créer un flux.

    Pour savoir comment créer une requête permettant de diffuser des données dans des tables BigLake Iceberg à l'aide de REST, Google Cloud CLI ou Terraform, consultez Gérer les flux à l'aide de l'API.

Étapes suivantes