Puedes instalar componentes adicionales, como Iceberg, cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe cómo instalar opcionalmente el componente Iceberg en un clúster de Dataproc.
Descripción general
Apache Iceberg es un formato de tabla abierta para conjuntos de datos analíticos grandes. Aporta la confiabilidad y la simplicidad de las tablas SQL al Big Data, a la vez que permite que motores como Spark, Trino, PrestoDB, Flink y Hive trabajen de forma segura con las mismas tablas al mismo tiempo.
Cuando se instala en un clúster de Dataproc, el componente Apache Iceberg instala bibliotecas de Iceberg y configura Spark y Hive para que funcionen con Iceberg en el clúster.
Funciones clave de Iceberg
Las funciones de Iceberg incluyen lo siguiente:
- Evolución del esquema: Agrega, quita o cambia el nombre de las columnas sin volver a escribir toda la tabla.
- Viaje en el tiempo: Consulta instantáneas históricas de tablas para realizar auditorías o reversiones.
- Particionamiento oculto: Optimiza el diseño de los datos para realizar consultas más rápidas sin exponer los detalles de las particiones a los usuarios.
- Transacciones ACID: Garantizan la coherencia de los datos y evitan conflictos.
Versiones de imágenes de Dataproc compatibles
Puedes instalar el componente de Iceberg en clústeres de Dataproc creados con las versiones de imagen 2.2.47 y posteriores. La versión de Iceberg instalada en el clúster se indica en la página de versiones de la versión 2.2.
Propiedades relacionadas con Iceberg
Cuando creas un clúster de Dataproc con Iceberg, las siguientes propiedades de Spark y Hive se configuran para que funcionen con Iceberg.
Archivo de configuración | Propiedad | Valor predeterminado |
---|---|---|
/etc/spark/conf/spark-defaults.conf |
spark.sql.extensions |
org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions |
spark.driver.extraClassPath |
/usr/lib/iceberg/lib/iceberg-spark-runtime-spark-version_scala-version.jar |
|
spark.executor.extraClassPath |
/usr/lib/iceberg/lib/iceberg-spark-runtime-spark-version_scala-version.jar |
|
/etc/hive/conf/hive-site.xml |
hive.aux.jars.path |
file:///usr/lib/iceberg/lib/iceberg-hive-runtime.jar |
iceberg.engine.hive.enabled |
true |
Instala el componente opcional de Iceberg
Instala el componente de Iceberg cuando crees un clúster de Dataproc. En las páginas de la lista de versiones de imágenes de clústeres de Dataproc, se muestra la versión del componente Iceberg incluida en las versiones de imágenes de clústeres de Dataproc más recientes.
Google Cloud console
Para crear un clúster de Dataproc que instale el componente de Iceberg, completa los siguientes pasos en la consola de Google Cloud :
- Abre la página Crear un clúster de Dataproc. Se selecciona el panel Configura el clúster.
- En la sección Componentes, en Componentes opcionales, selecciona el componente Iceberg.
- Confirma o especifica otros parámetros de configuración del clúster y, luego, haz clic en Crear.
Google Cloud CLI
Para crear un clúster de Dataproc que instale el componente Iceberg, usa el comando gcloud dataproc clusters create
con la marca --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=ICEBERG \ other flags ...
Reemplaza lo siguiente:
- CLUSTER_NAME: Es el nombre del clúster nuevo.
- REGION: Es la región del clúster.
API de REST
Para crear un clúster de Dataproc que instale el componente opcional de Iceberg, especifica Iceberg
SoftwareConfig.Component
como parte de una
solicitud de clusters.create
.
Usa tablas de Iceberg con Spark y Hive
Después de crear un clúster de Dataproc que tenga el componente opcional de Iceberg instalado en el clúster, puedes usar Spark y Hive para leer y escribir datos de la tabla de Iceberg.
Spark
Configura una sesión de Spark para Iceberg
Puedes usar el comando de gcloud CLI de forma local o los REPL (bucles de lectura, evaluación e impresión) spark-shell
o pyspark
que se ejecutan en el nodo instancia principal del clúster de Dataproc para habilitar las extensiones de Spark de Iceberg y configurar el catálogo de Spark para usar tablas de Iceberg.
gcloud
Ejecuta el siguiente ejemplo de gcloud CLI en una ventana de la terminal local o en Cloud Shell para enviar un trabajo de Spark y establecer propiedades de Spark para configurar la sesión de Spark para Iceberg.
gcloud dataproc jobs submit spark \ --cluster=CLUSTER_NAME \ --region=REGION \ --properties="spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" \ --properties="spark.sql.catalog.CATALOG_NAME=org.apache.iceberg.spark.SparkCatalog" \ --properties="spark.sql.catalog.CATALOG_NAME.type=hadoop" \ --properties="spark.sql.catalog.CATALOG_NAME.warehouse=gs://BUCKET/FOLDER" \ other flags ...
Reemplaza lo siguiente:
- CLUSTER_NAME: Es el nombre del clúster.
- REGION: Es la región de Compute Engine.
- CATALOG_NAME: Es el nombre del catálogo de Iceberg.
- BUCKET y FOLDER: Ubicación del catálogo de Iceberg en Cloud Storage.
spark-shell
Para configurar una sesión de Spark para Iceberg con el REPL de spark-shell
en el clúster de Dataproc, completa los siguientes pasos:
Usa SSH para conectarte al nodo principal del clúster de Dataproc.
Ejecuta el siguiente comando en la terminal de la sesión de SSH para configurar la sesión de Spark para Iceberg.
spark-shell \ --conf "spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" \ --conf "spark.sql.catalog.CATALOG_NAME=org.apache.iceberg.spark.SparkCatalog" \ --conf "spark.sql.catalog.CATALOG_NAME.type=hadoop" \ --conf "spark.sql.catalog.CATALOG_NAME.warehouse=gs://BUCKET/FOLDER"
Reemplaza lo siguiente:
- CLUSTER_NAME: Es el nombre del clúster.
- REGION: Es la región de Compute Engine.
- CATALOG_NAME: Es el nombre del catálogo de Iceberg.
- BUCKET y FOLDER: Ubicación del catálogo de Iceberg en Cloud Storage.
Shell de pyspark
Para configurar una sesión de Spark para Iceberg con el REPL de pyspark
en el clúster de Dataproc, completa los siguientes pasos:
Usa SSH para conectarte al nodo principal del clúster de Dataproc.
Ejecuta el siguiente comando en la terminal de la sesión de SSH para configurar la sesión de Spark para Iceberg:
pyspark \ --conf "spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" \ --conf "spark.sql.catalog.CATALOG_NAME=org.apache.iceberg.spark.SparkCatalog" \ --conf "spark.sql.catalog.CATALOG_NAME.type=hadoop" \ --conf "spark.sql.catalog.CATALOG_NAME.warehouse=gs://BUCKET/FOLDER"
Reemplaza lo siguiente:
- CLUSTER_NAME: Es el nombre del clúster.
- REGION: Es la región de Compute Engine.
- CATALOG_NAME: Es el nombre del catálogo de Iceberg.
- BUCKET y FOLDER: Ubicación del catálogo de Iceberg en Cloud Storage.
Escribe datos en una tabla de Iceberg
Puedes escribir datos en una tabla de Iceberg con Spark. Los siguientes fragmentos de código crean un objeto DataFrame
con datos de muestra, crean una tabla de Iceberg en Cloud Storage y, luego, escriben los datos en la tabla de Iceberg.
PySpark
# Create a DataFrame with sample data. data = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"]) # Create an Iceberg table in Cloud Storage. spark.sql("""CREATE TABLE IF NOT EXISTS CATALOG_NAME.NAMESPACE.TABLE_NAME ( id integer, name string) USING iceberg LOCATION 'gs://BUCKET/FOLDER/NAMESPACE/TABLE_NAME'""") # Write the DataFrame to the Iceberg table in Cloud Storage. data.writeTo("CATALOG_NAME.NAMESPACE.TABLE_NAME").append()
Scala
// Create a DataFrame with sample data. val data = Seq((1, "Alice"), (2, "Bob")).toDF("id", "name") // Create an Iceberg table in Cloud Storage. spark.sql("""CREATE TABLE IF NOT EXISTS CATALOG_NAME.NAMESPACE.TABLE_NAME ( id integer, name string) USING iceberg LOCATION 'gs://BUCKET/FOLDER/NAMESPACE/TABLE_NAME'""") // Write the DataFrame to the Iceberg table in Cloud Storage. data.writeTo("CATALOG_NAME.NAMESPACE.TABLE_NAME").append()
Cómo leer datos de una tabla de Iceberg
Puedes leer datos de una tabla de Iceberg con Spark. Los siguientes fragmentos de código leen la tabla y, luego, muestran su contenido.
PySpark
# Read Iceberg table data into a DataFrame. df = spark.read.format("iceberg").load("CATALOG_NAME.NAMESPACE.TABLE_NAME") # Display the data. df.show()
Scala
// Read Iceberg table data into a DataFrame. val df = spark.read.format("iceberg").load("CATALOG_NAME.NAMESPACE.TABLE_NAME") // Display the data. df.show()
Spark SQL
SELECT * FROM CATALOG_NAME.NAMESPACE.TABLE_NAME
Hive
Crea una tabla de Iceberg en Hive
Los clústeres de Dataproc preconfiguran Hive para que funcione con Iceberg.
Para ejecutar los fragmentos de código de esta sección, completa los siguientes pasos:
Usa SSH para conectarte al nodo principal de tu clúster de Dataproc.
Abre
beeline
en la ventana de la terminal SSH.beeline -u jdbc:hive2://
Puedes crear una tabla de Iceberg particionada o sin particiones en Hive.
Tabla sin particionar
Crea una tabla de Iceberg sin particiones en Hive.
CREATE TABLE my_table ( id INT, name STRING, created_at TIMESTAMP ) STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';
Tabla particionada
Crea una tabla de Iceberg particionada en Hive especificando las columnas de partición en la cláusula PARTITIONED BY
.
CREATE TABLE my_partitioned_table ( id INT, name STRING ) PARTITIONED BY (date_sk INT) STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';
Inserta datos en una tabla de Iceberg en Hive
Puedes insertar datos en una tabla de Iceberg con las instrucciones INSERT
estándar de Hive.
SET hive.execution.engine=mr; INSERT INTO my_table SELECT 1, 'Alice', current_timestamp();
Limitaciones
- El motor de ejecución de MR (MapReduce) solo es compatible con las operaciones de DML (lenguaje de manipulación de datos).
- La ejecución de MR está obsoleta en Hive
3.1.3
.
Cómo leer datos de una tabla Iceberg en Hive
Para leer datos de una tabla de Iceberg, usa una instrucción SELECT
.
SELECT * FROM my_table;
Borra una tabla de Iceberg en Hive.
Para descartar una tabla Iceberg en Hive, usa la instrucción DROP TABLE
.
DROP TABLE my_table;
¿Qué sigue?
- Consulta la guía de inicio rápido de Iceberg.