适用于 Apache Iceberg 的 Dataflow 托管式 I/O

托管式 I/O 支持 Apache Iceberg 的以下功能:

目录
  • Hadoop
  • Hive
  • 基于 REST 的目录
  • BigQuery Metastore(如果不使用 Runner v2,则需要使用 Apache Beam SDK 2.62.0 或更高版本)
读取功能 批处理读取
写入功能
  • 批处理写入
  • 流式写入
  • 动态目标
  • 动态表格创建

对于 Apache Iceberg 的 BigQuery 表,请将 BigQueryIO 连接器与 BigQuery Storage API 搭配使用。该表必须已经存在;不支持动态表格创建。

要求

以下 SDK 支持 Apache Iceberg 的托管式 I/O:

  • Java 版 Apache Beam SDK 2.58.0 或更高版本
  • Python 版 Apache Beam SDK 2.61.0 版或更高版本

配置

托管式 I/O 针对 Apache Iceberg 使用以下配置参数。

读取和写入配置 数据类型 说明
table 字符串 Apache Iceberg 表的标识符。示例: "db.table1"
catalog_name 字符串 目录的名称。示例:"local"
catalog_properties 地图 Apache Iceberg 目录的配置属性映射。所需的属性取决于清单。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil
config_properties 地图 一组可选的 Hadoop 配置属性。如需了解详情,请参阅 Apache Iceberg 文档中的 CatalogUtil
写入配置 数据类型 说明
triggering_frequency_seconds 整数 对于流式写入流水线,表示缓冲区尝试生成快照的频率,以秒为单位。

如需了解详情和查看代码示例,请参阅以下主题: