Los clústeres de un solo nodo son clústeres de Dataproc con un solo nodo. Este nodo único actúa como maestro y trabajador de tu clúster de Dataproc. Aunque los clústeres de un solo nodo solo tienen un nodo, la mayoría de los conceptos y las funciones de Dataproc siguen siendo válidos, excepto los que se indican a continuación.
Hay varias situaciones en las que los clústeres de Dataproc de un solo nodo pueden ser útiles, como las siguientes:
- Probar nuevas versiones de Spark y Hadoop u otros componentes de código abierto
- Crear demostraciones de pruebas de concepto
- Ciencia de datos sencilla
- Tratamiento de datos no críticos a pequeña escala
- Formación relacionada con el ecosistema de Spark y Hadoop
Semántica de clústeres de un solo nodo
Las siguientes semánticas se aplican a los clústeres de Dataproc de un solo nodo:
- Los clústeres de un solo nodo se configuran igual que los clústeres de varios nodos de Dataproc e incluyen servicios como HDFS y YARN.
- Los clústeres de un solo nodo se registran como nodos maestros para las acciones de inicialización.
- Los clústeres de un solo nodo muestran 0 trabajadores, ya que el nodo único actúa como maestro y trabajador.
- Los clústeres de un solo nodo reciben nombres de host que siguen el patrón
clustername-m
. Puedes usar este nombre de host para conectarte a una interfaz web del nodo mediante SSH. - Los clústeres de un solo nodo no se pueden actualizar a clústeres de varios nodos. Una vez creados, los clústeres de un solo nodo se limitan a un nodo. Del mismo modo, los clústeres de varios nodos no se pueden reducir a clústeres de un solo nodo.
Limitaciones
No se recomiendan los clústeres de un solo nodo para el procesamiento de datos paralelos a gran escala. Si superas los recursos de un clúster de un solo nodo, te recomendamos que uses un clúster de Dataproc de varios nodos.
Los clústeres de un solo nodo no están disponibles con la alta disponibilidad, ya que solo hay un nodo en el clúster.
Los clústeres de un solo nodo no pueden usar máquinas virtuales interrumpibles.
Crear un clúster de un solo nodo
Comando gcloud
Puedes crear un clúster de Dataproc de un solo nodo con la gcloud
herramienta de línea de comandos. Para crear un clúster de un solo nodo, pasa la marca --single-node
al comando gcloud dataproc clusters create
.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
API REST
Puedes crear un clúster de un solo nodo a través de la API REST de Dataproc mediante una solicitud clusters.create. Al enviar esta solicitud, debes hacer lo siguiente:
- Añade la propiedad
"dataproc:dataproc.allow.zero.workers":"true"
a la SoftwareConfig de la solicitud de clúster. - No envíes valores para
workerConfig
ysecondaryWorkerConfig
(consulta ClusterConfig).
Consola
Puedes crear un clúster de un solo nodo seleccionando "Un solo nodo (1 maestro, 0 trabajadores)" en la sección Tipo de clúster del panel Configurar clúster de la página Crear un clúster de Dataproc.