Configurar tabelas do BigLake Iceberg no BigQuery

Nesta página, descrevemos como configurar o Datastream para replicação em tabelas Iceberg do BigLake no BigQuery.

As tabelas do BigLake Iceberg oferecem a mesma experiência totalmente gerenciada das tabelas padrão do BigQuery, mas armazenam dados em buckets do Cloud Storage de propriedade do cliente no formato de tabela do Apache Iceberg e no formato de arquivo Parquet. Você pode consultar e analisar dados usando os recursos do BigQuery, mantendo os dados nos seus próprios buckets de armazenamento.

Configurar o streaming para tabelas do BigLake Iceberg

Para configurar o fluxo para ingerir dados em tabelas do BigLake Iceberg:

  1. Crie um bucket do Cloud Storage para armazenar seus dados.
  2. Crie uma conexão de recurso do Cloud no BigQuery. Para informações sobre como criar esse tipo de conexão, consulte Criar e configurar uma conexão de recursos do Cloud.
  3. Receba o identificador da conta de serviço de conexão:

    bq show --location=LOCATION --connection --project_id=PROJECT_ID
    CONNECTION_NAME
    
  4. Conceda à sua conexão de recursos do Cloud acesso ao bucket do Cloud Storage criado. Para fazer isso, adicione a permissão do IAM storage.admin à conta de serviço da conexão:

    gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \
    --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \
    --role=roles/storage.admin
    
  5. Crie um fluxo de tabelas do BigLake Iceberg.

    Para informações sobre como criar um fluxo de tabelas Iceberg do BigLake usando o console do Google Cloud , consulte Criar um fluxo.

    Para informações sobre como criar uma solicitação para transmitir dados para tabelas do BigLake Iceberg usando REST, Google Cloud CLI ou Terraform, consulte Gerenciar streams usando a API.

A seguir