Propiedades del aprovisionador de Dataproc

El aprovisionador de Dataproc en Cloud Data Fusion llama a La API de Dataproc para crear y borrar clústeres en tu cuenta de Google Cloud proyectos. Puedes configurar los clústeres en la configuración del aprovisionador.

Obtén más información sobre la compatibilidad entre Cloud Data Fusion. y versiones de Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad Descripción
ID del proyecto El proyecto de Google Cloud en el que se crea un clúster nuevo. El proyecto debe tener la API de Dataproc habilitado.
Clave de la cuenta de servicio del creador

La clave de la cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las instancias de Dataproc y Compute Engine APIs Debido a que la clave de tu cuenta es confidencial, te recomendamos que proporciones la clave de la cuenta usando Almacenamiento seguro.

Luego de crear la clave segura, puedes agregarla a un espacio de nombres o a una el perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona el seguro . Para un perfil de cálculo del sistema, ingresa el nombre de la clave en la Clave de cuenta segura.

Región Una ubicación geográfica en la que puedes alojar recursos, como los nodos de procesamiento para el clúster de Dataproc.
Zona Un área de implementación aislada dentro de una región.
Red La red de VPC en el proyecto de Google Cloud que se usará cuando crees un clúster de Dataproc.
ID del proyecto host de la red Si la red reside en otro proyecto de Google Cloud, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el proyecto host ID donde reside la red.
Subred La subred que se usará cuando se creen clústeres. Debe estar dentro del rango y en la región en la que se encuentra la zona. Si se deja en blanco, se crea una subred según la red y la zona.
Cuenta de servicio del ejecutor El nombre de la cuenta de servicio de las máquinas virtuales de Dataproc (VM) que se usan para ejecutar programas. Si se deja en blanco, la configuración predeterminada de servicio de Compute Engine.
Cantidad de instancias principales

Es la cantidad de nodos principales en el clúster. Estos nodos contienen las Administrador de recursos de YARN, HDFS NameNode y todos los controladores. Se debe configurar en 1 o 3.

La cantidad predeterminada es 1.

Tipo de máquina principal

El tipo de máquina principal que se usará. Selecciona una de las siguientes opciones: tipos de máquinas:

  • n1
  • n2
  • N2D
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2

En la versión 6.7.1, el valor predeterminado es n2.

En las versiones 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos principales

Cantidad de núcleos virtuales asignados a un nodo principal.

El valor predeterminado es 2.

Memoria principal (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo principal.

El valor predeterminado es 8 GB.

Tamaño del disco principal (GB)

Es el tamaño del disco, en gigabytes, asignado a un nodo principal.

El valor predeterminado es 1,000 GB.

Tipo de disco principal

Tipo de disco de arranque para un nodo principal:

  • Disco persistente estándar
  • Disco persistente SSD

La configuración predeterminada es Disco persistente estándar.

Tipo de máquina de trabajador

El tipo de máquina de trabajador que se usará. Selecciona una de las siguientes opciones: tipos de máquinas:

  • n1
  • n2
  • N2D
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2

En la versión 6.7.1, el valor predeterminado es n2.

En las versiones 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos de trabajador

Cantidad de núcleos virtuales asignados a un nodo trabajador.

El valor predeterminado es 2.

Memoria de trabajador (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador.

El valor predeterminado es 8 GB.

Tamaño del disco del trabajador (GB)

Tamaño del disco, en gigabytes, asignado a un nodo trabajador

El valor predeterminado es 1,000 GB.

Tipo de disco de trabajador

Tipo de disco de arranque para un nodo trabajador:

  • Disco persistente estándar
  • Disco persistente SSD

La configuración predeterminada es Disco persistente estándar.

Usa el ajuste de escala automático predefinido Habilita el uso del ajuste de escala automático predefinido de Dataproc.
Cantidad de trabajadores principales

Los nodos trabajadores contienen un NodeManager de YARN y un DataNode de HDFS.

El valor predeterminado es 2.

Cantidad de trabajadores secundarios Los nodos trabajadores secundarios contienen un NodeManager de YARN, pero no un HDFS. DataNode. Por lo general, está establecido en cero, a menos que se aplique una política de ajuste de escala automático requiere que sea mayor.
Política de ajuste de escala automático

Ruta de acceso para el ID de la política de ajuste de escala automático o el URI del recurso.

Para obtener información sobre cómo configurar y usar Dataproc ajuste de escala automático para cambiar el tamaño de los clústeres de forma automática y dinámica demandas de una carga de trabajo, consulta Cuándo usar el ajuste de escala automático y ajuste de escala automático de Dataproc clústeres.

Metadatos Metadatos adicionales para las instancias que se ejecutan en tu clúster. Puedes generalmente se usa para hacer un seguimiento de la facturación y las devoluciones de cargos. Para ver más consulta Metadatos del clúster.
Etiquetas de red Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula una letra o un número.
Habilitar el inicio seguro

Habilita el Inicio seguro en la VMs de Dataproc.

El valor predeterminado es False.

Habilitar vTPM

Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc.

El valor predeterminado es False.

Habilitar la supervisión de integridad

Habilita la supervisión de integridad virtual en la VMs de Dataproc.

El valor predeterminado es False.

Versión de la imagen La versión de la imagen de Dataproc. Si se deja en blanco, uno es automáticamente. Si la propiedad URI de imagen personalizada es si se deja en blanco, se ignorará esta propiedad.
URI de imagen personalizada El URI de la imagen de Dataproc. Si se deja en blanco, se infiere de La propiedad Versión de la imagen (Image version).
Bucket de etapa de pruebas bucket de Cloud Storage usado para almacenar en etapa intermedia las dependencias del trabajo y de configuración para ejecutar canalizaciones en Dataproc.
Bucket temp.

bucket de Cloud Storage usado para almacenar clústeres efímeros datos de trabajos, como los archivos de historial de Spark en Dataproc.

Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2.

Nombre de la clave de encriptación La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc.
Alcances de OAuth

Los permisos de OAuth 2.0 que tal vez debas solicitar para acceder a Google según el nivel de acceso que necesites. Alcance de Google Cloud Platform siempre está incluida.

Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2.

Acciones de inicialización Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben ubicarse en Cloud Storage.
Propiedades del clúster Las propiedades del clúster anulan las propiedades de configuración predeterminada de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables consulta Propiedades del clúster.
Etiquetas comunes

Etiquetas para organizar los clústeres y trabajos de Dataproc que se está creando.

Puedes etiquetar cada recurso y, luego, filtrarlos por etiquetas. La información sobre las etiquetas se reenvía al sistema de facturación para que los clientes puede desglosar los cargos de facturación según etiqueta.

Tiempo de inactividad máximo

Configura Dataproc para borrar un clúster si está inactivo mayor que la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones poco frecuentes. Para más información, consulta Soluciona problemas relacionados con la eliminación clústeres.

El valor predeterminado es 30 minutos.

Omitir la eliminación del clúster

Establece si se omite la eliminación del clúster al final de una ejecución. Debes borrar clústeres de forma manual. Solo debe usarse cuando se depura un archivo cuando se ejecute.

El valor predeterminado es False.

Habilitar la integración de Stackdriver Logging

Habilitar la integración de Stackdriver Logging

El valor predeterminado es True.

Habilitar la integración de Stackdriver Monitoring

Habilitar la integración de Stackdriver Monitoring

El valor predeterminado es True.

Habilita la puerta de enlace de componentes

Habilitar la puerta de enlace del componente para acceder a las interfaces del clúster como ResourceManager de YARN y Spark HistoryServer.

El valor predeterminado es False.

Preferir IP externa

Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando la comunicación con el clúster. Para usar siempre la dirección IP externa, configura este valor a True.

El valor predeterminado es False.

Crear un retraso de la encuesta

La cantidad de segundos que se debe esperar después de crear un clúster para comenzar un sondeo para ver si se creó el clúster.

La configuración predeterminada es de 60 segundos.

La configuración del sondeo controla la frecuencia con la que se consulta el estado del clúster cuando crear y borrar clústeres. Si tienes muchas canalizaciones programadas para al mismo tiempo, te recomendamos que cambies esta configuración.

Cómo crear un Jitter de encuesta

Cantidad máxima de jitter aleatorio, en segundos, que se sumará al retraso cuando la creación de un clúster. Puedes usar esta propiedad para evitar que muchas de llamadas simultáneas a la API en Google Cloud canalizaciones programadas para ejecutarse exactamente al mismo tiempo.

La configuración predeterminada es de 20 segundos.

Cómo borrar la demora de la encuesta

La cantidad de segundos que se debe esperar después de borrar un clúster para comenzar un sondeo para saber si se borró el clúster.

El valor predeterminado es 30 segundos.

Intervalo de encuesta

La cantidad de segundos que se debe esperar entre encuestas para el estado del clúster.

El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Dataproc Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta del perfil name
Nombre del perfil label
Descripción description
ID del proyecto projectId
Clave de la cuenta de servicio del creador accountKey
Región region
Zona zone
Red network
ID del proyecto host de la red networkHostProjectId
Subred subnet
Cuenta de servicio del ejecutor serviceAccount
Cantidad de instancias principales masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos principales masterCPUs
Memoria principal (GB) masterMemoryMB
Tamaño del disco principal (GB) masterDiskGB
Tipo de disco principal masterDiskType
Cantidad de trabajadores principales workerNumNodes
Cantidad de trabajadores secundarios secondaryWorkerNumNodes
Tipo de máquina de trabajador workerMachineType
Núcleos de trabajador workerCPUs
Memoria de trabajador (GB) workerMemoryMB
Tamaño del disco del trabajador (GB) workerDiskGB
Tipo de disco de trabajador workerDiskType
Metadatos clusterMetaData
Etiquetas de red networkTags
Habilitar el inicio seguro secureBootEnabled
Habilitar vTPM vTpmEnabled
Habilitar la supervisión de integridad integrityMonitoringEnabled
Versión de la imagen imageVersion
URI de imagen personalizada customImageUri
Bucket de Cloud Storage gcsBucket
Nombre de la clave de encriptación encryptionKeyName
Política de ajuste de escala automático autoScalingPolicy
Acciones de inicialización initActions
Propiedades del clúster clusterProperties
Etiquetas clusterLabels
Tiempo de inactividad máximo idleTTL
Omitir la eliminación del clúster skipDelete
Habilitar la integración de Stackdriver Logging stackdriverLoggingEnabled
Habilitar la integración de Stackdriver Monitoring stackdriverMonitoringEnabled
Habilita la puerta de enlace de componentes componentGatewayEnabled
Preferir IP externa preferExternalIP
Crear un retraso de la encuesta pollCreateDelay
Cómo crear un Jitter de encuesta pollCreateJitter
Cómo borrar la demora de la encuesta pollDeleteDelay
Intervalo de encuesta pollInterval

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta el Recomendaciones para la configuración del clúster.

¿Qué sigue?