Se usó la API de Cloud Translation para traducir esta página.

Trabajadores secundarios de Dataproc

Además de usar VMs estándar de Compute Engine como trabajadores de Dataproc (llamados trabajadores "primarios"), los clústeres de Dataproc pueden usar trabajadores secondary.

Las siguientes características se aplican a todos los trabajadores secundarios en un clúster de Dataproc:

Solo procesamiento: Los trabajadores secundarios no almacenan datos. Solo funcionan como nodos de procesamiento. Por lo tanto, puedes usar trabajadores secundarios para escalar el procesamiento sin escalar el almacenamiento.
No hay clústeres secundarios solo de trabajador: Tu clúster debe tener trabajadores primarios. Si creas un clúster y no especificas la cantidad de trabajadores primarios, Dataproc agrega dos trabajadores primarios al clúster.
Tipo de máquina: De forma predeterminada, los trabajadores secundarios usan el tipo de máquina de los trabajadores principales del clúster. Por ejemplo, si creas un clúster con trabajadores principales que usan tipos de máquina n1-standard-4, de forma predeterminada, todos los trabajadores secundarios agregados al clúster también usarán máquinas n1-standard-4.

En lugar de usar el tipo de máquina de trabajador principal predeterminado para los trabajadores secundarios, puedes especificar una o más listas clasificadas de tipos de máquinas para los trabajadores secundarios. Consulta VMs flexibles de Dataproc para obtener más información.
Tamaño de disco persistente: De forma predeterminada, los trabajadores secundarios se crean con el tamaño del disco de arranque del trabajador principal o con un tamaño de menos de 1,000 GB. Este espacio de disco se usa para el almacenamiento en caché local de datos y no está disponible a través de HDFS. Puedes anular el tamaño de disco predeterminado con el comando gcloud dataproc clusters create --secondary-worker-boot-disk-size durante la creación del clúster. Puedes especificar esta marca incluso si el clúster no tiene trabajadores secundarios cuando se crea.
Creación asíncrona: cuando agregas trabajadores secundarios mediante la creación o el escalamiento vertical de un clúster, es posible que los trabajadores secundarios no se aprovisionen en el momento en que finaliza la operación de creación o actualización. Esto se debe a que Dataproc administra los trabajadores secundarios con grupos de instancias administrados (MIG), que crean VMs de forma asíncrona en cuanto se pueden aprovisionar (consulta Verifica el estado de las instancias administradas).

Trabajadoressecundarios interrumpibles y no interrumpibles

Existen tres tipos de trabajadores secundarios: VMs Spot, VMs interrumpibles estándar y VMs no interrumpibles. El tipo de trabajador secundario predeterminado de Dataproc es la VM interrumpible estándar. Puedes especificar una combinación de trabajadores secundarios Spot y no interrumpibles.

Ejemplo: Si seleccionas tres trabajadores secundarios cuando creas un clúster, puedes especificar tres VM Spot, tres VM interrumpibles, tres VM no interrumpibles o una combinación de trabajadores Spot y no interrumpibles.

Trabajadores interrumpibles

Si bien la posible eliminación de trabajadores interrumpibles puede afectar la estabilidad de los trabajos, puedes decidir usar instancias interrumpibles para reducir los costos de procesamiento por hora para los datos que no son esenciales o a fin de crear clústeres muy grandes a un costo total más bajo (puedes usar la calculadora de precios de Google Cloud para estimar los costos).
Para obtener mejores resultados, la cantidad de trabajadores interrumpibles en tu clúster debe ser inferior al 50% de la cantidad total de todos los trabajadores (primario y todos los trabajadores secundarios) en tu clúster.
Cuando se usan trabajadores interrumpibles, es muy probable que tus trabajos experimenten una mayor cantidad de fallas de tareas transitorias de un solo trabajador en comparación con los trabajos que se ejecutan en trabajadores no interrumpibles. Para aumentar la tolerancia del trabajo a errores de tareas de nivel bajo, puedes configurar valores de propiedad similares a los valores de propiedad predeterminados con clústeres con ajuste de escala automático a fin de aumentar la cantidad máxima de reintentos de tareas y evitar fallas en los trabajos.

Sugerencia: Considera usar el modo de flexibilidad mejorada si usas VMs interrumpibles con Spark.
Consideración para ahorrar costos: El uso de VMs interrumpibles no siempre ahorra costos, ya que las interrupciones pueden provocar una ejecución más prolongada del trabajo, lo que genera costos más altos. Si bien usar el modo de flexibilidad mejorada (EFM) con VMs interrumpibles puede ayudar a mitigar este resultado, el ahorro general de costos de las VMs interrumpibles variará según cada caso de uso. En general, los trabajos de corta duración son más adecuados para el uso de VM interrumpible, ya que la probabilidad de interrupciones durante la ejecución del trabajo será menor. Prueba diferentes opciones de trabajo, como VMs interrumpibles y VMs interrumpibles con EFM, para estimar los costos y llegar a la mejor solución.

Trabajadores no interrumpibles

Puedes crear un clúster con trabajadores secundarios no interrumpibles para escalar el procesamiento sin sacrificar la estabilidad del trabajo. Para ello, especifica non-preemptible como el tipo de trabajador secundario. Puedes combinar trabajadores secundarios no interrumpibles con trabajadores secundarios de instancias spot.

Selecciona trabajadores secundarios

Puedes especificar la cantidad y el tipo de trabajadores secundarios cuando creas un clúster con la consola deGoogle Cloud , la CLI de gcloud o la API de Dataproc.

Puedes combinar instancias spot con trabajadores secundarios no interrumpibles.
Puedes actualizar tu clúster después de crearlo para cambiar el número de trabajadores secundarios en tu clúster, pero no el tipo.
Las actualizaciones de etiquetas se propagan a todos los trabajadores secundarios interrumpibles en un plazo de 24 horas. Las actualizaciones de etiquetas no se propagan a los trabajadores secundarios no interrumpibles existentes. Las actualizaciones de etiquetas se propagan a todos los trabajadores que se agregan a un clúster después de actualizar las etiquetas. Por ejemplo, si escalas verticalmente el clúster, todos los trabajadores principales y secundarios nuevos tendrán las etiquetas nuevas.

Console

Puedes especificar la cantidad de trabajadores secundarios cuando creas un clúster de Dataproc desde la Google Cloud consola. Después de crear un clúster, puedes editar su configuración desde la consola deGoogle Cloud para agregar o quitar trabajadores secundarios.

Crea un clúster con trabajadores secundarios

Puedes configurar la cantidad y el tipo de trabajadores secundarios para que se apliquen a un clúster nuevo desde la sección Nodos trabajadores secundarios del panel Configurar nodos de Dataproc en la página Crear un clúster de la consola de Google Cloud . Especifica la cantidad y el tipo de trabajadores secundarios en los campos Nodos trabajadores secundarios y Interrumpibilidad, respectivamente.

Actualiza un clúster con instancias secundarias

Para actualizar la cantidad de trabajadores secundarios en un clúster, haz clic en el nombre del clúster en la página Clústeres de la consola de Google Cloud . En la página Detalles del clúster. Haz clic en la pestaña **Configuración**, luego haz clic en Editar y actualiza el número en el campo de nodos trabajadores secundarios.

Quita todas las instancias secundarias de un clúster

Para quitar todos los trabajadores secundarios de un clúster, actualiza la configuración del clúster como se explicó anteriormente y especifica 0 en el campo Nodos trabajadores secundarios.

Comando de Google Cloud CLI

Usa el comando gcloud dataproc clusters create para agregar trabajadores secundarios a un clúster en el momento de su creación. Después de crear un clúster, puedes agregar trabajadores secundarios al clúster o quitarlos con el comando gcloud dataproc clusters update (la cantidad, pero no el tipo de trabajadores secundarios que se puede actualizar).

Crea un clúster con trabajadores secundarios

Para crear un clúster con trabajadores secundarios, usa el comando gcloud dataproc clusters create con el argumento --num-secondary-workers. Los trabajadores secundarios son VM interrumpibles estándar de forma predeterminada. Puedes especificar trabajadores secundarios no interrumpibles o de instancia de spot cuando creas un clúster configurando la marca --secondary-worker-type como "non-preemptible" o "spot". En los siguientes ejemplos, se muestra cómo crear un clúster con cada tipo de trabajador secundario: "preemptible" (predeterminado), "spot" (interrumpible) y "non-preemptible". Puedes usar marcas adicionales para combinar instancias spot con trabajadores secundarios no interrumpibles.

Ejemplo 1

El siguiente comando crea "cluster1" con dos trabajadores secundarios interrumpibles estándar (tipo predeterminado).

gcloud dataproc clusters create cluster1 \
    --num-secondary-workers=2 \
    --region=us-central1

Ejemplo 2

El siguiente comando usa la marca secondary-worker-type para crear "cluster2" con dos trabajadores secundarios interrumpibles (spot).

gcloud dataproc clusters create cluster2 \
    --num-secondary-workers=2 \
    --secondary-worker-type=spot \
    --region=us-central1

Ejemplo 3

El siguiente comando usa la marca secondary-worker-type para crear "cluster3" con dos trabajadores secundarios no interrumpibles.

gcloud dataproc clusters create cluster3 \
    --num-secondary-workers=2 \
    --secondary-worker-type=non-preemptible \
    --region=us-central1

Cambia el tamaño del disco de arranque del trabajador secundario. De forma predeterminada, todos los trabajadores secundarios se crean con el tamaño de disco de arranque del trabajador principal o con un tamaño de menos de 1,000 GB. Este espacio de disco se usa para el almacenamiento en caché local de datos y no está disponible a través de HDFS. Puedes anular el tamaño de disco predeterminado con el comando gcloud dataproc clusters create --secondary-worker-boot-disk-size durante la creación del clúster. Esta marca se puede especificar incluso si el clúster no tiene trabajadores secundarios en el momento de la creación. Permite que la consola de Google Cloud elabore tu solicitud de creación de clústeres. Puedes hacer clic en los vínculos de REST equivalente o línea de comandos en la parte inferior del panel izquierdo de la página Crea un clúster de Dataproc para que la Google Cloud consola cree una solicitud equivalente a la API de REST o un comando de la herramienta de gcloud.

Actualiza un clúster con trabajadores secundarios

Para actualizar un clúster y agregar o quitar trabajadores secundarios, usa el comando gcloud dataproc clusters update con la marca --num-secondary-workers.

Ejemplo

El siguiente comando actualiza example-cluster para que use cuatro trabajadores secundarios (del tipo predeterminado o del tipo especificado cuando creaste el clúster).

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=4 \
    --region=us-central1

Quita todos los trabajadores secundarios de un clúster

Para quitar todos los trabajadores secundarios de un clúster, usa el comando gcloud dataproc clusters update con --num-secondary-workers configurado como 0.

Ejemplo

El siguiente comando quita todos los trabajadores secundarios de "example-cluster".

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=0 \
    --region=us-central1

API de REST

Crea un clúster con trabajadores secundarios

Usa la API de clusters.create de Dataproc y agrega trabajadores secundarios a un clúster cuando este se crea. En los siguientes ejemplos, se muestra cómo crear un clúster con cada tipo de trabajador secundario: preemptible (predeterminado), spot (interrumpible) y non-preemptible. Puedes usar campos adicionales para combinar instancias spot con trabajadores secundarios no interrumpibles.

Ejemplo 1

La siguiente solicitud POST crea un "cluster1" con dos trabajadores de VM interrumpibles estándar (tipo predeterminado).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster1",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  }
}

Ejemplo 2

La siguiente solicitud POST crea un clúster llamado "cluster2" con dos trabajadores de VM interrumpibles (Spot).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster2",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "SPOT"
    }
  }
}

Ejemplo 3

La siguiente solicitud POST crea "cluster3" con dos trabajadores secundarios no interrumpibles.


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster3",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "NON_PREEMPTIBLE"
    }
  }
}

Actualiza un clúster con trabajadores secundarios

Usa la API de clusters.patch de Dataproc para agregar y quitar trabajadores secundarios.

Ejemplo

La siguiente solicitud PATCH actualiza un clúster para que tenga cuatro trabajadores secundarios (del tipo predeterminado o del tipo especificado cuando creaste el clúster).


PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 4
    }
  }
}

Permite que la consola de Google Cloud cree tu solicitud de creación de clústeres. Puedes hacer clic en los vínculos REST equivalente o línea de comandos en la parte inferior del panel izquierdo de la página Crear un clúster de Dataproc para que la Google Cloud consola cree una solicitud de API de REST equivalente o un comando de gcloud CLI.

Soluciona problemas de trabajadores secundarios

Problemas de permisos de la cuenta de servicio: Los trabajadores secundarios se crean a través de un grupo de instancias administrado. Si hay un problema de permisos, los registros de Dataproc no informarán el error en la creación de trabajadores secundarios, pero los trabajadores con errores se enumerarán en la pestaña Instancias de VM de la página Detalles del clúster en la consola deGoogle Cloud sin una marca de verificación verde. Para ver la lista, abre la página Clústeres de Dataproc y, luego, haz clic en el nombre del clúster para abrir la página Detalles del clúster.
Problemas de permisos de grupos de instancias administrados: Para verificar si hay un problema con los permisos de grupo de instancias administrado, haz lo siguiente:
1. Busca el nombre del grupo de instancias administrado (instanceGroupManagerName).
  Console
  1. Abre la página Clústeres de Dataproc y, luego, haz clic en el nombre del clúster para abrir la página Detalles del clúster.
  2. Haz clic en REST equivalente en la parte inferior de la página y, luego, consulta el valor de config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName.
  Google Cloud CLI
  Ejecuta el comando gcloud dataproc clusters describe con la marca --format para mostrar el instanceGroupManagerName.
  gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION \ --format='value(config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName)'
  API de REST
  Envía una solicitud de clusters.get para devolver el valor de config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName.
2. Visualiza los registros en el Explorador de registros.
- Selecciona el tipo de recurso Google Compute Engine Instance Group y filtra por el nombre del grupo de instancias administrado.
- Como alternativa, puedes aplicar un filtro de registro para `resource.type="gce_instance_group" y resource.labels.instance_group_name=INSTANCE_GROUP_MANAGER_NAME.

Mezcla de instancias de procesamiento con trabajadores secundarios no interrumpibles

Puedes especificar una combinación de trabajadores secundarios interrumpibles y de instancias spot cuando creas un clúster de Dataproc.

Configuración de trabajadores secundarios para combinar instancias spot con trabajadores secundarios no interrumpibles

Usa la siguiente configuración de trabajadores secundarios cuando crees un clúster de Dataproc para obtener un nivel mínimo de capacidad de trabajadores secundarios con la capacidad de aumentar la capacidad cuando haya VMs Spot disponibles:

Número de trabajadores secundarios: Es la cantidad total de trabajadores secundarios que se aprovisionarán.
secondary worker type: spot es el tipo de trabajador secundario cuando se combinan trabajadores secundarios spot con trabajadores secundarios no interrumpibles.
standardCapacityBase: Es la cantidad de trabajadores secundarios no interrumpibles (estándar) que se aprovisionarán. Los trabajadores secundarios no interrumpibles se aprovisionan antes que otros tipos de trabajadores secundarios.
standardCapacityPercentAboveBase: Después de que se completa la cantidad de trabajadores secundarios standardCapacityBase, la cantidad restante de trabajadores secundarios necesarios para alcanzar la cantidad total de trabajadores secundarios solicitados se completa con una combinación de VMs interrumpibles y de instancia de VM de la siguiente manera:
- standardCapacityPercentAboveBase: Es el porcentaje de los trabajadores secundarios restantes que se deben completar con VMs no interrumpibles.
- La cantidad restante necesaria para alcanzar la cantidad total de trabajadores secundarios solicitados se completa con VMs de instancia única.

Ejemplo:

Cantidad de trabajadores secundarios: 15
standardCapacityBase: 5
standardCapacityPercentAboveBase 30%

Resultado:

No priorizable: 8 = 5 (standardCapacityBase) + 3 (30% de los 10 restantes)
Posición: 7 (70% de las 10 restantes)
Total = 15

Crea un clúster con una combinación de trabajadores secundarios Spot y no interrumpibles

Puedes usar gcloud CLI o la API de Dataproc para combinar trabajadores secundarios interrumpibles con trabajadores secundarios no interrumpibles cuando creas un clúster.

gcloud

Ejecuta el siguiente comando de forma local o en Cloud Shell para crear un clúster con una combinación de trabajadores secundarios interrumpibles y no interrumpibles.

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --secondary-worker-type=spot \
    --num-secondary-workers=NUMBER_SECONDARY_WORKERS \
    --secondary-worker-standard-capacity-base=STANDARD_CAPACITY_BASE \
    --secondary-worker-standard-capacity-percent-above-base=STANDARD_CAPACITY_PERCENT_ABOVE_BASE \
    OTHER_FLAGS_AS_NEEDED

Notas:

CLUSTER_NAME el nombre del clúster nuevo.
PROJECT_ID: El ID de tu proyecto de Google Cloud . Los IDs del proyecto se enumeran en la sección Información del proyecto en el panel de la consola Google Cloud .
REGION: Es una región de Compute Engine disponible para ejecutar la carga de trabajo.
--secondary-worker-type: Cuando combines trabajadores secundarios spot y no interrumpibles, especifica el tipo de trabajador secundario como spot.
STANDARD_CAPACITY_BASE y STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Consulta Configuración de trabajadores secundarios para combinar trabajadores secundarios interrumpibles con no interrumpibles.
OTHER_FLAGS_AS_NEEDED: Consulta gcloud dataproc clusters create.

API

Para combinar instancias de Spot con trabajadores secundarios no interrumpibles, configura los campos de la API de Dataproc preemptibility, standardCapacityBase y standardCapacityPercentAboveBase como parte de una solicitud cluster.create, como se muestra en el siguiente ejemplo en JSON:

{
  "clusterName": "CLUSTER_NAME",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 15,
      "preemptibility": "spot",
      "instanceFlexibilityPolicy": {
        "provisioningModelMix": {
          "standardCapacityBase": STANDARD_CAPACITY_BASE
          "standardCapacityPercentAboveBase": STANDARD_CAPACITY_PERCENT_ABOVE_BASE
        }
      }
    }
  }
}

Notas:

CLUSTER_NAME el nombre del clúster nuevo.
preemptibility: Cuando se mezclan trabajadores secundarios interrumpibles y de instancia de procesamiento puntual, especifica spot.
STANDARD_CAPACITY_BASE y STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Consulta Configuración de trabajadores secundarios para combinar trabajadores secundarios interrumpibles con no interrumpibles.

Combina la combinación de trabajadores secundarios con VMs flexibles

Puedes combinar trabajadores secundarios interrumpibles y no interrumpibles y especificar formas de VM flexibles para los trabajadores secundarios cuando creas un clúster.

Ejemplo de gcloud CLI:

gcloud dataproc clusters create cluster-name \
    --project=project-id \
    --region=us-central1 \
    --secondary-worker-type=spot \
    --num-secondary-workers=15 \
    --secondary-worker-standard-capacity-base=5 \
    --secondary-worker-standard-capacity-percent-above-base=30 \
    --secondary-worker-machine-types="type=n2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1"
    ...other flags as needed

Características de combinación del trabajador secundario

En esta sección, se describen algunos de los comportamientos y las características asociados con la combinación de trabajadores secundarios interrumpibles y no interrumpibles.

Preferencia de trabajador secundario

Dataproc no da preferencia a las VMs interrumpibles ni a las VMs Spot cuando programa aplicaciones en trabajadores secundarios.

Ajuste de escala de trabajadores secundarios

Cuando los trabajadores secundarios se escalan a través del ajuste de escala automático o el ajuste de escala manual, Dataproc mantiene la proporción solicitada de instancias interrumpibles a no interrumpibles cuando agrega trabajadores secundarios.

Actualiza la configuración de combinación de trabajadores secundarios

Especificas la combinación de trabajadores secundarios interrumpibles y no interrumpibles cuando creas un clúster de Dataproc. No puedes cambiar la configuración de combinación de trabajadores secundarios después de crear el clúster.

Interrupción de trabajadores secundarios de Spot

Dataproc no controla el momento de la interrupción de las VM Spot (consulta Interrupción de las VMs Spot).
Cuando se produce una interrupción de instancias Spot, el grupo de trabajadores secundarios puede ejecutarse con capacidad reducida de forma temporal hasta que Compute Engine vuelva a aprovisionar las VMs interrumpidas.
Dataproc no agregará capacidad a un grupo de trabajadores secundarios que supere la configuración inicial del grupo.