E/S gerenciada pelo Dataflow para o Apache Iceberg

A E/S gerenciada oferece suporte aos seguintes recursos do Apache Iceberg:

Catálogos
  • Hadoop
  • Hive
  • Catálogos baseados em REST
  • Metastore do BigQuery (requer o SDK do Apache Beam 2.62.0 ou mais recente se não estiver usando o Runner v2)
Recursos de leitura Leitura em lote
Recursos de gravação

Para tabelas do BigQuery para Apache Iceberg, use o conector BigQueryIO com a API BigQuery Storage. A tabela já precisa existir. Não é possível criar tabelas dinâmicas.

Requisitos

Os seguintes SDKs são compatíveis com E/S gerenciada para o Apache Iceberg:

  • SDK do Apache Beam para Java versão 2.58.0 ou mais recente
  • SDK do Apache Beam para Python versão 2.61.0 ou mais recente

Configuração

A E/S gerenciada usa os seguintes parâmetros de configuração para o Apache Iceberg:

Ler e gravar configuração Tipo de dado Descrição
table string O identificador da tabela do Apache Iceberg. Exemplo: "db.table1".
catalog_name string O nome do catálogo. Exemplo: "local".
catalog_properties mapa Mapa das propriedades de configuração do Apache Iceberg no seu catálogo. As propriedades obrigatórias dependem do catálogo. Para mais informações, consulte CatalogUtil na documentação do Apache Iceberg.
config_properties mapa Um conjunto opcional de propriedades de configuração do Hadoop. Para mais informações, consulte CatalogUtil na documentação do Apache Iceberg.
Gravar configuração Tipo de dado Descrição
triggering_frequency_seconds integer Para pipelines de gravação de streaming, a frequência com que o sink tenta produzir snapshots, em segundos.

Para mais informações e exemplos de código, consulte os seguintes tópicos: