Se usó la API de Cloud Translation para traducir esta página.

Propiedades del proveedor de Dataproc

El aprovisionador de Dataproc en Cloud Data Fusion llama a la API de Dataproc para crear y borrar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en la configuración del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las de Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad	Descripción
ID del proyecto	El Google Cloud proyecto en el que se crea el clúster de Dataproc. El proyecto debe tener habilitada la API de Dataproc.
Clave de la cuenta de servicio del creador	La clave de la cuenta de servicio que se proporciona al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage. Después de crear la clave segura, puedes agregarla a un espacio de nombres o a un perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. Para un perfil de procesamiento del sistema, ingresa el nombre de la clave en el campo Clave de cuenta segura.
Región	Es una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de procesamiento del clúster de Dataproc.
Zona	Un área de implementación aislada dentro de una región.
Red	La red de VPC de tu Google Cloud proyecto que se usará cuando crees un clúster de Dataproc.
ID del proyecto host de la red	Si la red reside en otro Google Cloud proyecto, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el ID del proyecto host en el que reside la red.
Subred	Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se selecciona una subred según la red y la zona.
Cuenta de servicio de Runner	Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, se usa la cuenta de servicio predeterminada de Compute Engine.
Cantidad de maestros	La cantidad de nodos principales en el clúster. Estos nodos contienen el administrador de recursos YARN, HDFS NameNode y todos los controladores. Debe establecerse en 1 o 3. La cantidad predeterminada es 1.
Tipo de máquina principal	El tipo de máquina principal que se usará. Selecciona uno de los siguientes tipos de máquinas: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos principales	Cantidad de núcleos virtuales asignados a un nodo principal. El valor predeterminado es 2.
Memoria principal (GB)	Es la cantidad de memoria, en gigabytes, asignada a un nodo principal. El valor predeterminado es 8 GB.
Tamaño del disco principal (GB)	Es el tamaño del disco, en gigabytes, asignado a un nodo principal. El valor predeterminado es 1,000 GB.
Tipo de disco principal	Tipo de disco de arranque para un nodo principal: Disco persistente estándar Disco persistente SSD El valor predeterminado es Disco persistente estándar.
Tipo de máquina de trabajo	El tipo de máquina de trabajo que se usará Selecciona uno de los siguientes tipos de máquinas: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos de trabajo	Cantidad de núcleos virtuales asignados a un nodo trabajador. El valor predeterminado es 2.
Memoria del trabajador (GB)	Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador. El valor predeterminado es 8 GB.
Tamaño del disco del trabajador (GB)	Es el tamaño del disco, en gigabytes, asignado a un nodo trabajador. El valor predeterminado es 1,000 GB.
Tipo de disco del trabajador	Tipo de disco de arranque para un nodo de trabajo: Disco persistente estándar Disco persistente SSD El valor predeterminado es Disco persistente estándar.
Cómo usar el ajuste de escala automático predefinido	Habilita el uso del ajuste de escala automático predefinido de Dataproc.
Cantidad de trabajadores principales	Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS. El valor predeterminado es 2.
Cantidad de trabajadores secundarios	Los nodos de trabajo secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Por lo general, se establece en cero, a menos que una política de ajuste de escala automático requiera que sea más alto.
Política de ajuste de escala automático	Es la ruta de acceso para el ID de la política de escalamiento automático o el URI del recurso. Si deseas obtener información para configurar y usar el ajuste de escala automático de Dataproc para cambiar el tamaño de forma automática y dinámica de los clústeres según las demandas de carga de trabajo, consulta Cuándo usar el ajuste de escala automático y Ajusta el escalamiento automático de los clústeres de Dataproc.
Metadatos	Metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargos. Para obtener más información, consulta Metadatos del clúster.
Etiquetas de red	Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número.
Habilita el inicio seguro	Habilita el inicio seguro en las VMs de Dataproc. El valor predeterminado es False.
Habilita el vTPM	Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc. El valor predeterminado es False.
Habilita la supervisión de integridad	Habilita la supervisión de integridad virtual en las VMs de Dataproc. El valor predeterminado es False.
Versión de la imagen	La versión de la imagen de Dataproc. Si se deja en blanco, se selecciona una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignora.
URI de imagen personalizada	El URI de la imagen de Dataproc Si se deja en blanco, se infiere de la propiedad Image version.
Bucket de etapa intermedia	Bucket de Cloud Storage que se usa para almacenar en etapa intermedia las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Dataproc.
Bucket temporal	Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Dataproc. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Nombre de la clave de encriptación	La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc
Alcances de OAuth	Los permisos de OAuth 2.0 que podrías necesitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Siempre se incluye el Google Cloud alcance de la plataforma. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Acciones de inicialización	Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster	Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes	Etiquetas para organizar los trabajos y clústeres de Dataproc que se crean Puedes etiquetar cada recurso y, luego, filtrar los recursos por etiquetas. La información sobre las etiquetas se envía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación según las etiquetas.
Tiempo máx. de inactividad	Configura Dataproc para que borre un clúster si está inactivo durante más de la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones excepcionales. Para obtener más información, consulta Soluciona problemas relacionados con la eliminación de clústeres. El valor predeterminado es de 30 minutos.
Omite la eliminación del clúster	Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar los clústeres de forma manual. Solo debe usarse cuando se depura una ejecución fallida. El valor predeterminado es False.
Habilita la integración de Stackdriver Logging	Habilita la integración de registro de Stackdriver. El valor predeterminado es True.
Habilita la integración de Stackdriver Monitoring	Habilita la integración de Stackdriver Monitoring. El valor predeterminado es True.
Habilita la puerta de enlace de componentes	Habilita la puerta de enlace de componentes para que acceda a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer. El valor predeterminado es False.
Preferir IP externa	Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True. El valor predeterminado es False.
Cómo crear una demora en la encuesta	Es la cantidad de segundos que se espera después de crear un clúster para comenzar a sondear si se creó. El valor predeterminado es de 60 segundos. La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y borran clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, te recomendamos que cambies este parámetro de configuración.
Cómo crear jitter de encuestas	Es la cantidad máxima de jitter aleatorio, en segundos, que se agrega a la demora cuando se crea un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo. El valor predeterminado es de 20 segundos.
Cómo borrar la demora de la encuesta	Es la cantidad de segundos que se deben esperar después de borrar un clúster para comenzar a sondear si se borró. El valor predeterminado es de 30 segundos.
Intervalo de sondeo	Es la cantidad de segundos que se espera entre sondeos para el estado del clúster. El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Dataproc	Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta de perfil	`name`
Nombre del perfil	`label`
Descripción	`description`
ID del proyecto	`projectId`
Clave de la cuenta de servicio del creador	`accountKey`
Región	`region`
Zona	`zone`
Red	`network`
ID del proyecto host de la red	`networkHostProjectId`
Subred	`subnet`
Cuenta de servicio de Runner	`serviceAccount`
Cantidad de maestros	`masterNumNodes`
Tipo de máquina principal	`masterMachineType`
Núcleos principales	`masterCPUs`
Memoria principal (GB)	`masterMemoryMB`
Tamaño del disco principal (GB)	`masterDiskGB`
Tipo de disco principal	`masterDiskType`
Cantidad de trabajadores principales	`workerNumNodes`
Cantidad de trabajadores secundarios	`secondaryWorkerNumNodes`
Tipo de máquina de trabajo	`workerMachineType`
Núcleos de trabajo	`workerCPUs`
Memoria del trabajador (GB)	`workerMemoryMB`
Tamaño del disco del trabajador (GB)	`workerDiskGB`
Tipo de disco del trabajador	`workerDiskType`
Metadatos	`clusterMetaData`
Etiquetas de red	`networkTags`
Habilita el inicio seguro	`secureBootEnabled`
Habilita el vTPM	`vTpmEnabled`
Habilita la supervisión de integridad	`integrityMonitoringEnabled`
Versión de la imagen	`imageVersion`
URI de imagen personalizada	`customImageUri`
Bucket de Cloud Storage	`gcsBucket`
Nombre de la clave de encriptación	`encryptionKeyName`
Política de ajuste de escala automático	`autoScalingPolicy`
Acciones de inicialización	`initActions`
Propiedades del clúster	`clusterProperties`
Etiquetas	`clusterLabels`
Tiempo máx. de inactividad	`idleTTL`
Omite la eliminación del clúster	`skipDelete`
Habilita la integración de Stackdriver Logging	`stackdriverLoggingEnabled`
Habilita la integración de Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Habilita la puerta de enlace de componentes	`componentGatewayEnabled`
Preferir IP externa	`preferExternalIP`
Cómo crear una demora en la encuesta	`pollCreateDelay`
Cómo crear jitter de encuestas	`pollCreateJitter`
Cómo borrar la demora de la encuesta	`pollDeleteDelay`
Intervalo de sondeo	`pollInterval`

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas de configuración de clústeres.

¿Qué sigue?

Obtén más información para administrar perfiles de procesamiento.