I cluster Dataproc includono i seguenti tipi di componenti:
Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.
Componenti facoltativi: i componenti che selezioni per l'installazione e l'utilizzo sul cluster quando lo crei. Dataproc installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster nel seguente modo:
Versioni immagine
2.2
e precedenti: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati durante la creazione del cluster.Versioni dell'immagine
2.3
e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni dell'immagine2.3
e successive. I componenti opzionali preinstallati vengono rimossi da un cluster di versione immagine2.3
o successive se non sono attivati al momento della creazione del cluster. Per saperne di più, consulta Versioni di rilascio di Dataproc 2.3.x.
Componenti dell'azione di inizializzazione: componenti installati su un cluster nell'ambito di un'azione di inizializzazione che specifichi quando crei un cluster.
I componenti facoltativi vengono installati su un cluster prima dell'esecuzione delle azioni di inizializzazione sul cluster.
Le pagine delle versioni immagine di Dataproc elencano i componenti e i tipi di componenti disponibili nelle ultime release delle immagini Dataproc.
I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:
- I componenti facoltativi vengono testati per verificarne la compatibilità con versioni specifiche di Dataproc.
- I componenti opzionali vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.
Componenti facoltativi disponibili
Componente facoltativo | Nome del componente nei comandi Google Cloud CLI e nelle richieste API |
Versione immagine | Fase di rilascio |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 e versioni successive | GA |
Docker | DOCKER | 1.5 e versioni successive | GA |
Flink | FLINK | 1.5 e versioni successive | GA |
HBase | HBASE | 1.5 e versioni successive (non disponibile in 2.1 e versioni successive) |
Deprecato |
Hive WebHCat | HIVE_WEBHCAT | 1.3 e versioni successive | GA |
Hudi | HUDI | 1.5 e versioni successive | GA |
Iceberg | ICEBERG | 2.2 e versioni successive | GA |
Jupyter Notebook | JUPYTER | 1.3 e versioni successive | GA |
Maiale | PIG | 1.5* e versioni successive | GA |
Presto | PRESTO | 1.3 e versioni successive (non disponibile in 2.1 e versioni successive) |
GA |
Ranger | RANGER | 1.3 e versioni successive | GA |
Solr | SOLR | 1.3 e versioni successive | GA |
Trino | TRINO | 2.1 e versioni successive | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 e versioni successive | GA |
Zookeeper | ZOOKEEPER | 1.0 e versioni successive | GA |
Note:
- Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era
preinstallato in
2.2
e nelle versioni precedenti dell'immagine.
Aggiungere componenti facoltativi
Console
- Nella console Google Cloud , vai alla pagina Dataproc
Crea un cluster.
Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti, in Componenti facoltativi, seleziona uno o più componenti da installare sul cluster.
Google Cloud CLI
Per creare un cluster Dataproc e installare uno o più componenti facoltativi sul cluster, utilizza il comando gcloud beta dataproc clusters create cluster-name
con il flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
I componenti opzionali possono essere specificati tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.