E/S gérées Dataflow pour Apache Iceberg

Les E/S gérées sont compatibles avec les fonctionnalités suivantes pour Apache Iceberg :

Catalogues
  • Hadoop
  • Hive
  • Catalogues basés sur REST
  • Métastore BigQuery (nécessite le SDK Apache Beam 2.62.0 ou version ultérieure si vous n'utilisez pas l'exécuteur v2)
Fonctionnalités de lecture Lecture par lots
Fonctionnalités d'écriture

Pour les tables BigQuery pour Apache Iceberg, utilisez le connecteur BigQueryIO avec l'API BigQuery Storage. La table doit déjà exister. La création de tables dynamiques n'est pas prise en charge.

Conditions requises

Les SDK suivants sont compatibles avec les E/S gérées pour Apache Iceberg :

  • SDK Apache Beam pour Java version 2.58.0 ou ultérieure
  • SDK Apache Beam pour Python version 2.61.0 ou ultérieure

Configuration

Les E/S gérées utilisent les paramètres de configuration suivants pour Apache Iceberg :

Lire et écrire la configuration Type de données Description
table chaîne Identifiant de la table Apache Iceberg. Exemple : "db.table1".
catalog_name chaîne Nom du catalogue. Exemple : "local".
catalog_properties carte Mappage des propriétés de configuration pour le catalogue Apache Iceberg. Les propriétés requises dépendent du catalogue. Pour en savoir plus, consultez CatalogUtil dans la documentation Apache Iceberg.
config_properties carte Ensemble facultatif de propriétés de configuration Hadoop. Pour en savoir plus, consultez la page CatalogUtil dans la documentation Apache Iceberg.
Écrire la configuration Type de données Description
triggering_frequency_seconds entier Pour les pipelines d'écriture en streaming, fréquence à laquelle le récepteur tente de produire des instantanés, en secondes.

Pour en savoir plus et obtenir des exemples de code, consultez les sujets suivants :