Sie können zusätzliche Komponenten wie Hudi installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Hudi-Komponente optional in einem Dataproc-Cluster installieren können.
Wenn die Apache Hudi-Komponente auf einem Dataproc-Cluster installiert wird, werden Hudi-Bibliotheken installiert und Spark und Hive im Cluster werden für die Verwendung von Hudi konfiguriert.
Kompatible Dataproc-Image-Versionen
Sie können die Hudi-Komponente auf Dataproc-Clustern installieren, die mit den folgenden Dataproc-Image-Versionen erstellt wurden:
Hudi-bezogene Attribute
Wenn Sie einen Dataproc-Cluster mit Hudi erstellen, werden die folgenden Spark- und Hive-Properties für die Verwendung mit Hudi konfiguriert.
Konfigurationsdatei | Attribut | Standardwert |
---|---|---|
/etc/spark/conf/spark-defaults.conf |
spark.serializer |
org.apache.spark.serializer.KryoSerializer |
spark.sql.catalog.spark_catalog |
org.apache.spark.sql.hudi.catalog.HoodieCatalog |
|
spark.sql.extensions |
org.apache.spark.sql.hudi.HoodieSparkSessionExtension |
|
spark.driver.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
spark.executor.extraClassPath |
/usr/lib/hudi/lib/hudi-sparkspark-version-bundle_scala-version-hudi-version.jar |
|
/etc/hive/conf/hive-site.xml |
hive.aux.jars.path |
file:///usr/lib/hudi/lib/hudi-hadoop-mr-bundle-version.jar |
Komponente installieren
Installieren Sie die Hudi-Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Auf den Seiten zu Dataproc-Image-Release-Versionen wird die Hudi-Komponentenversion aufgeführt, die in jedem Dataproc-Image-Release enthalten ist.
Console
- Aktivieren Sie die Komponente.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich Cluster einrichten ist ausgewählt.
- Im Bereich Komponenten:
- Wählen Sie unter Optionale Komponenten die Komponente Hudi aus.
gcloud-Befehl
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Hudi-Komponente enthält, den Befehl mit dem Flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=HUDI \ --image-version=DATAPROC_VERSION \ --properties=PROPERTIES
Ersetzen Sie Folgendes:
- CLUSTER_NAME: erforderlich. Der Name des neuen Clusters.
- REGION: erforderlich. Die Clusterregion.
- DATAPROC_IMAGE: Optional. Mit diesem optionalen Flag können Sie eine Dataproc-Image-Version angeben, die nicht dem Standard entspricht (siehe Standardversion von Dataproc-Images).
- PROPERTIES: Optional. Mit diesem optionalen Flag können Sie Hudi-Komponenteneigenschaften festlegen, die mit dem
hudi:
-Dateipräfix angegeben werden (z. B.properties=hudi:hoodie.datasource.write.table.type=COPY_ON_WRITE
).- Eigenschaft für die Hudi-Komponentenversion: Sie können optional die Eigenschaft
dataproc:hudi.version
angeben. Hinweis:Die Hudi-Komponentenversion wird von Dataproc so festgelegt, dass sie mit der Dataproc-Cluster-Image-Version kompatibel ist. Wenn Sie diese Eigenschaft festlegen, kann die Clustererstellung fehlschlagen, wenn die angegebene Version nicht mit dem Cluster-Image kompatibel ist. - Spark- und Hive-Attribute: Dataproc legt Hudi-bezogene Spark- und Hive-Attribute beim Erstellen des Clusters fest. Sie müssen sie nicht festlegen, wenn Sie den Cluster erstellen oder Jobs senden.
- Eigenschaft für die Hudi-Komponentenversion: Sie können optional die Eigenschaft
REST API
Die Hudi-Komponente kann über die Dataproc API mit SoftwareConfig.Component
als Teil einer clusters.create
-Anfrage installiert werden.
Job zum Lesen und Schreiben von Hudi-Tabellen senden
Nachdem Sie einen Cluster mit der Hudi-Komponente erstellt haben, können Sie Spark- und Hive-Jobs senden, die Hudi-Tabellen lesen und schreiben.
gcloud CLI
-Beispiel:
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ --region=region \ JOB_FILE \ -- JOB_ARGS
Beispiel für einen PySpark-Job
Mit der folgenden PySpark-Datei wird eine Hudi-Tabelle erstellt, gelesen und geschrieben.
Mit dem folgenden gcloud CLI-Befehl wird die PySpark-Beispieldatei an Dataproc gesendet.
gcloud dataproc jobs submit pyspark \ --cluster=CLUSTER_NAME \ gs://BUCKET_NAME/pyspark_hudi_example.py \ -- TABLE_NAME gs://BUCKET_NAME/TABLE_NAME
Hudi-Befehlszeile verwenden
Die Hudi-Befehlszeilenschnittstelle befindet sich auf dem Masterknoten des Dataproc-Clusters unter /usr/lib/hudi/cli/hudi-cli.sh
. Mit der Hudi-CLI können Sie Hudi-Tabellenschemas, Commits und Statistiken ansehen und administrative Vorgänge wie das Planen von Verdichtungen manuell ausführen (siehe hudi-cli verwenden).
So starten Sie die Hudi-Befehlszeile und stellen eine Verbindung zu einer Hudi-Tabelle her:
- Stellen Sie eine SSH-Verbindung zum Masterknoten her.
- Führen Sie
/usr/lib/hudi/cli/hudi-cli.sh
aus. Die Eingabeaufforderung ändert sich inhudi->
. - Führen Sie
connect --path gs://my-bucket/my-hudi-table
aus. - Führen Sie Befehle wie
desc
aus, der das Tabellenschema beschreibt, odercommits show
, der den Commit-Verlauf anzeigt. - Führen Sie
exit
aus, um die CLI-Sitzung zu beenden.