適用於 Apache Iceberg 的 Dataflow 受管理 I/O

受管理 I/O 支援 Apache Iceberg 的下列功能:

目錄
讀取功能 批次讀取
寫入功能

如果是 Apache Iceberg 專用 BigQuery 資料表,請搭配 BigQuery Storage API 使用 BigQueryIO 連接器。資料表必須已存在,不支援動態建立資料表。

需求條件

下列 SDK 支援 Apache Iceberg 的代管 I/O:

  • Java 適用的 Apache Beam SDK 2.58.0 以上版本
  • Python 適用的 Apache Beam SDK 2.61.0 以上版本

設定

受管理 I/O 會使用下列 Apache Iceberg 設定參數:

讀取及寫入設定 資料類型 說明
table 字串 Apache Iceberg 資料表的 ID。示例: "db.table1"
catalog_name 字串 目錄的名稱。範例:"local"
catalog_properties 地圖 Apache Iceberg 目錄的設定屬性對應。必要屬性取決於目錄。詳情請參閱 Apache Iceberg 說明文件中的 CatalogUtil
config_properties 地圖 一組選用的 Hadoop 設定屬性。詳情請參閱 Apache Iceberg 說明文件中的 CatalogUtil
撰寫設定 資料類型 說明
triggering_frequency_seconds 整數 對於串流寫入管道,接收器嘗試產生快照的頻率 (以秒為單位)。

如需更多資訊和程式碼範例,請參閱下列主題: