I/O terkelola Dataflow untuk Apache Iceberg

I/O Terkelola mendukung kemampuan berikut untuk Apache Iceberg:

Katalog
  • Hadoop
  • Hive
  • Katalog berbasis REST
  • Metastore BigQuery (memerlukan Apache Beam SDK 2.62.0 atau yang lebih baru jika tidak menggunakan Runner v2)
Kemampuan membaca Baca batch
Kemampuan menulis

Untuk tabel BigQuery untuk Apache Iceberg, gunakan konektor BigQueryIO dengan BigQuery Storage API. Tabel harus sudah ada; pembuatan tabel dinamis tidak didukung.

Persyaratan

SDK berikut mendukung I/O terkelola untuk Apache Iceberg:

  • Apache Beam SDK untuk Java versi 2.58.0 atau yang lebih baru
  • Apache Beam SDK untuk Python versi 2.61.0 atau yang lebih baru

Konfigurasi

I/O Terkelola menggunakan parameter konfigurasi berikut untuk Apache Iceberg:

Konfigurasi baca dan tulis Jenis data Deskripsi
table string ID tabel Apache Iceberg. Contoh: "db.table1".
catalog_name string Nama katalog. Contoh: "local".
catalog_properties map Peta properti konfigurasi untuk katalog Apache Iceberg. Properti yang diperlukan bergantung pada katalog. Untuk mengetahui informasi selengkapnya, lihat CatalogUtil dalam dokumentasi Apache Iceberg.
config_properties map Kumpulan properti konfigurasi Hadoop opsional. Untuk mengetahui informasi selengkapnya, lihat CatalogUtil dalam dokumentasi Apache Iceberg.
Menulis konfigurasi Jenis data Deskripsi
triggering_frequency_seconds bilangan bulat Untuk pipeline penulisan streaming, frekuensi saat sink berupaya membuat snapshot, dalam detik.

Untuk informasi dan contoh kode selengkapnya, lihat topik berikut: