Nesta página, descrevemos como configurar o Datastream para replicação em tabelas Iceberg do BigLake no BigQuery.
As tabelas do BigLake Iceberg oferecem a mesma experiência totalmente gerenciada das tabelas padrão do BigQuery, mas armazenam dados em buckets do Cloud Storage de propriedade do cliente no formato de tabela do Apache Iceberg e no formato de arquivo Parquet. Você pode consultar e analisar dados usando os recursos do BigQuery, mantendo os dados nos seus próprios buckets de armazenamento.
Configurar o streaming para tabelas do BigLake Iceberg
Para configurar o fluxo para ingerir dados em tabelas do BigLake Iceberg:
- Crie um bucket do Cloud Storage para armazenar seus dados.
- Crie uma conexão de recurso do Cloud no BigQuery. Para informações sobre como criar esse tipo de conexão, consulte Criar e configurar uma conexão de recursos do Cloud.
Receba o identificador da conta de serviço de conexão:
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAME
Conceda à sua conexão de recursos do Cloud acesso ao bucket do Cloud Storage criado. Para fazer isso, adicione a permissão do IAM
storage.admin
à conta de serviço da conexão:gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.admin
Crie um fluxo de tabelas do BigLake Iceberg.
Para informações sobre como criar um fluxo de tabelas Iceberg do BigLake usando o console do Google Cloud , consulte Criar um fluxo.
Para informações sobre como criar uma solicitação para transmitir dados para tabelas do BigLake Iceberg usando REST,
Google Cloud CLI
ou Terraform, consulte Gerenciar streams usando a API.
A seguir
- Para saber mais sobre streams, consulte Ciclo de vida do stream.
- Para saber como criar um stream, consulte Criar um stream.
- Para saber como criar um perfil de conexão que pode ser usado com um fluxo de tabelas Iceberg do BigLake, consulte Criar um perfil de conexão para o BigQuery.