I/O gestiti da Dataflow per Apache Iceberg

Managed I/O supporta le seguenti funzionalità per Apache Iceberg:

Cataloghi
  • Hadoop
  • Hive
  • Cataloghi basati su REST
  • Metastore BigQuery (richiede Apache Beam SDK 2.62.0 o versioni successive se non utilizzi Runner v2)
Funzionalità di lettura Lettura batch
Capacità di scrittura

Per le tabelle BigQuery per Apache Iceberg, utilizza il connettore BigQueryIO con l'API BigQuery Storage. La tabella deve già esistere; la creazione dinamica della tabella non è supportata.

Requisiti

I seguenti SDK supportano I/O gestito per Apache Iceberg:

  • Apache Beam SDK per Java versione 2.58.0 o successive
  • SDK Apache Beam per Python versione 2.61.0 o successive

Configurazione

L'I/O gestito utilizza i seguenti parametri di configurazione per Apache Iceberg:

Configurazione di lettura e scrittura Tipo di dati Descrizione
table string L'identificatore della tabella Apache Iceberg. Esempio: "db.table1".
catalog_name string Il nome del catalogo. Esempio: "local".
catalog_properties mappa Una mappa delle proprietà di configurazione per il catalogo Apache Iceberg. Le proprietà richieste dipendono dal catalogo. Per saperne di più, consulta CatalogUtil nella documentazione di Apache Iceberg.
config_properties mappa Un insieme facoltativo di proprietà di configurazione Hadoop. Per saperne di più, consulta CatalogUtil nella documentazione di Apache Iceberg.
Scrivere la configurazione Tipo di dati Descrizione
triggering_frequency_seconds integer Per le pipeline di scrittura in streaming, la frequenza con cui il sink tenta di produrre snapshot, in secondi.

Per ulteriori informazioni ed esempi di codice, consulta i seguenti argomenti: