Los clústeres de Dataproc incluyen los siguientes tipos de componentes:
Componentes instalados: Son los componentes que se instalan en la imagen y se activan cuando se crea el clúster.
Componentes opcionales: Son los componentes que seleccionas para instalar y usar en tu clúster cuando lo creas. Dataproc instala y activa los componentes opcionales según la versión de la imagen del clúster de la siguiente manera:
2.2
y versiones anteriores de imágenes: Los componentes opcionales se instalan automáticamente. Los componentes opcionales seleccionados se activan y los que no se seleccionaron se desinstalan cuando se crea el clúster.2.3
y versiones posteriores de imágenes: Los componentes opcionales se instalan durante la creación del clúster. Para obtener más información, consulta Versiones de actualización de Dataproc 2.3.x.
Componentes de la acción de inicialización: Son componentes instalados en un clúster como parte de una acción de inicialización que especificas cuando creas un clúster.
Los componentes opcionales se instalan en un clúster antes de que se ejecuten las acciones de inicialización en el clúster.
En las páginas de versiones de imágenes de Dataproc, se enumeran los componentes y los tipos de componentes disponibles en las versiones de imágenes de Dataproc más recientes.
Los componentes opcionales tienen las siguientes ventajas sobre las acciones de inicialización que se usan para instalar componentes:
- Los componentes opcionales se prueban como compatibles con versiones específicas de Dataproc.
- Los componentes opcionales se habilitan con un parámetro de creación de clúster. Las acciones de inicialización requieren una secuencia de comandos.
Componentes opcionales disponibles
Componente opcional | Nombre del componente en comandos de Google Cloud CLI y solicitudes a la API |
Versión de la imagen | Etapa de actualización |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 y versiones posteriores | DG |
Docker | DOCKER | 1.5 y versiones posteriores | DG |
Flink | FLINK | 1.5 y versiones posteriores | DG |
HBase | HBASE | 1.5 y versiones posteriores (no disponible en la versión 2.1 y posteriores) |
Funciones obsoletas |
Hive WebHCat | HIVE_WEBHCAT | 1.3 y posteriores | DG |
Hudi | HUDI | 1.5 y versiones posteriores | DG |
Iceberg | ICEBERG | 2.2 y versiones posteriores | DG |
Notebook de Jupyter | JUPYTER | 1.3 y posteriores | DG |
Pig | PIG | 1.5* y versiones posteriores | DG |
Presto | PRESTO | 1.3 y versiones posteriores (no disponible en la versión 2.1 y posteriores) |
DG |
Ranger | RANGER | 1.3 y posteriores | DG |
Solr | SOLR | 1.3 y posteriores | DG |
Trino | TRINO | 2.1 y versiones posteriores | DG |
Notebook de Zeppelin | ZEPPELIN | 1.3 y posteriores | DG |
Zookeeper | ZOOKEEPER | 1.0 y posteriores | DG |
Notas:
- Apache Pig es un componente opcional en las versiones de imagen 2.3 y posteriores. Estaba preinstalado en
2.2
y versiones anteriores de imágenes.
Agrega componentes opcionales
Console
- En la consola de Google Cloud , ve a la página Create a cluster de Dataproc.
Se selecciona el panel Configura el clúster.
- En la sección Componentes, en Componentes opcionales, selecciona uno o más componentes para instalar en tu clúster.
Google Cloud CLI
Para crear un clúster de Dataproc e instalar uno o más componentes opcionales en el clúster, usa el comando gcloud beta dataproc clusters create cluster-name
con la marca --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API de REST
Los componentes opcionales se pueden especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.