El aprovisionador de Dataproc en Cloud Data Fusion llama a La API de Dataproc para crear y borrar clústeres en tu cuenta de Google Cloud proyectos. Puedes configurar los clústeres en la configuración del aprovisionador.
Obtén más información sobre la compatibilidad entre Cloud Data Fusion. y versiones de Dataproc, consulta Compatibilidad de versiones.
Propiedades
Propiedad | Descripción |
---|---|
ID del proyecto | El proyecto de Google Cloud en el que se crea un clúster nuevo. El proyecto debe tener la API de Dataproc habilitado. |
Clave de la cuenta de servicio del creador | La clave de la cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las instancias de Dataproc y Compute Engine APIs Debido a que la clave de tu cuenta es confidencial, te recomendamos que proporciones la clave de la cuenta usando Almacenamiento seguro. Luego de crear la clave segura, puedes agregarla a un espacio de nombres o a una el perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona el seguro . Para un perfil de cálculo del sistema, ingresa el nombre de la clave en la Clave de cuenta segura. |
Región | Una ubicación geográfica en la que puedes alojar recursos, como los nodos de procesamiento para el clúster de Dataproc. |
Zona | Un área de implementación aislada dentro de una región. |
Red | La red de VPC en el proyecto de Google Cloud que se usará cuando crees un clúster de Dataproc. |
ID del proyecto host de la red | Si la red reside en otro proyecto de Google Cloud, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el proyecto host ID donde reside la red. |
Subred | La subred que se usará cuando se creen clústeres. Debe estar dentro del rango y en la región en la que se encuentra la zona. Si se deja en blanco, se crea una subred según la red y la zona. |
Cuenta de servicio del ejecutor | El nombre de la cuenta de servicio de las máquinas virtuales de Dataproc (VM) que se usan para ejecutar programas. Si se deja en blanco, la configuración predeterminada de servicio de Compute Engine. |
Cantidad de instancias principales | Es la cantidad de nodos principales en el clúster. Estos nodos contienen las Administrador de recursos de YARN, HDFS NameNode y todos los controladores. Se debe configurar en 1 o 3. La cantidad predeterminada es 1. |
Tipo de máquina principal | El tipo de máquina principal que se usará. Selecciona una de las siguientes opciones: tipos de máquinas:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2 En la versión 6.7.1, el valor predeterminado es n2. En las versiones 6.7.0 y anteriores, el valor predeterminado es n1. |
Núcleos principales | Cantidad de núcleos virtuales asignados a un nodo principal. El valor predeterminado es 2. |
Memoria principal (GB) | Es la cantidad de memoria, en gigabytes, asignada a un nodo principal. El valor predeterminado es 8 GB. |
Tamaño del disco principal (GB) | Es el tamaño del disco, en gigabytes, asignado a un nodo principal. El valor predeterminado es 1,000 GB. |
Tipo de disco principal | Tipo de disco de arranque para un nodo principal:
La configuración predeterminada es Disco persistente estándar. |
Tipo de máquina de trabajador | El tipo de máquina de trabajador que se usará. Selecciona una de las siguientes opciones: tipos de máquinas:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2 En la versión 6.7.1, el valor predeterminado es n2. En las versiones 6.7.0 y anteriores, el valor predeterminado es n1. |
Núcleos de trabajador | Cantidad de núcleos virtuales asignados a un nodo trabajador. El valor predeterminado es 2. |
Memoria de trabajador (GB) | Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador. El valor predeterminado es 8 GB. |
Tamaño del disco del trabajador (GB) | Tamaño del disco, en gigabytes, asignado a un nodo trabajador El valor predeterminado es 1,000 GB. |
Tipo de disco de trabajador | Tipo de disco de arranque para un nodo trabajador:
La configuración predeterminada es Disco persistente estándar. |
Usa el ajuste de escala automático predefinido | Habilita el uso del ajuste de escala automático predefinido de Dataproc. |
Cantidad de trabajadores principales | Los nodos trabajadores contienen un NodeManager de YARN y un DataNode de HDFS. El valor predeterminado es 2. |
Cantidad de trabajadores secundarios | Los nodos trabajadores secundarios contienen un NodeManager de YARN, pero no un HDFS. DataNode. Por lo general, está establecido en cero, a menos que se aplique una política de ajuste de escala automático requiere que sea mayor. |
Política de ajuste de escala automático | Ruta de acceso para el ID de la política de ajuste de escala automático o el URI del recurso. Para obtener información sobre cómo configurar y usar Dataproc ajuste de escala automático para cambiar el tamaño de los clústeres de forma automática y dinámica demandas de una carga de trabajo, consulta Cuándo usar el ajuste de escala automático y ajuste de escala automático de Dataproc clústeres. |
Metadatos | Metadatos adicionales para las instancias que se ejecutan en tu clúster. Puedes generalmente se usa para hacer un seguimiento de la facturación y las devoluciones de cargos. Para ver más consulta Metadatos del clúster. |
Etiquetas de red | Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula una letra o un número. |
Habilitar el inicio seguro | Habilita el Inicio seguro en la VMs de Dataproc. El valor predeterminado es False. |
Habilitar vTPM | Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc. El valor predeterminado es False. |
Habilitar la supervisión de integridad | Habilita la supervisión de integridad virtual en la VMs de Dataproc. El valor predeterminado es False. |
Versión de la imagen | La versión de la imagen de Dataproc. Si se deja en blanco, uno es automáticamente. Si la propiedad URI de imagen personalizada es si se deja en blanco, se ignorará esta propiedad. |
URI de imagen personalizada | El URI de la imagen de Dataproc. Si se deja en blanco, se infiere de La propiedad Versión de la imagen (Image version). |
Bucket de etapa de pruebas | bucket de Cloud Storage usado para almacenar en etapa intermedia las dependencias del trabajo y de configuración para ejecutar canalizaciones en Dataproc. |
Bucket temp. | bucket de Cloud Storage usado para almacenar clústeres efímeros datos de trabajos, como los archivos de historial de Spark en Dataproc. Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2. |
Nombre de la clave de encriptación | La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc. |
Alcances de OAuth | Los permisos de OAuth 2.0 que tal vez debas solicitar para acceder a Google según el nivel de acceso que necesites. Alcance de Google Cloud Platform siempre está incluida. Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2. |
Acciones de inicialización | Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben ubicarse en Cloud Storage. |
Propiedades del clúster | Las propiedades del clúster anulan las propiedades de configuración predeterminada de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables consulta Propiedades del clúster. |
Etiquetas comunes | Etiquetas para organizar los clústeres y trabajos de Dataproc que se está creando. Puedes etiquetar cada recurso y, luego, filtrarlos por etiquetas. La información sobre las etiquetas se reenvía al sistema de facturación para que los clientes puede desglosar los cargos de facturación según etiqueta. |
Tiempo de inactividad máximo | Configura Dataproc para borrar un clúster si está inactivo mayor que la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones poco frecuentes. Para más información, consulta Soluciona problemas relacionados con la eliminación clústeres. El valor predeterminado es 30 minutos. |
Omitir la eliminación del clúster | Establece si se omite la eliminación del clúster al final de una ejecución. Debes borrar clústeres de forma manual. Solo debe usarse cuando se depura un archivo cuando se ejecute. El valor predeterminado es False. |
Habilitar la integración de Stackdriver Logging | Habilitar la integración de Stackdriver Logging El valor predeterminado es True. |
Habilitar la integración de Stackdriver Monitoring | Habilitar la integración de Stackdriver Monitoring El valor predeterminado es True. |
Habilita la puerta de enlace de componentes | Habilitar la puerta de enlace del componente para acceder a las interfaces del clúster como ResourceManager de YARN y Spark HistoryServer. El valor predeterminado es False. |
Preferir IP externa | Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando la comunicación con el clúster. Para usar siempre la dirección IP externa, configura este valor a True. El valor predeterminado es False. |
Crear un retraso de la encuesta | La cantidad de segundos que se debe esperar después de crear un clúster para comenzar un sondeo para ver si se creó el clúster. La configuración predeterminada es de 60 segundos. La configuración del sondeo controla la frecuencia con la que se consulta el estado del clúster cuando crear y borrar clústeres. Si tienes muchas canalizaciones programadas para al mismo tiempo, te recomendamos que cambies esta configuración. |
Cómo crear un Jitter de encuesta | Cantidad máxima de jitter aleatorio, en segundos, que se sumará al retraso cuando la creación de un clúster. Puedes usar esta propiedad para evitar que muchas de llamadas simultáneas a la API en Google Cloud canalizaciones programadas para ejecutarse exactamente al mismo tiempo. La configuración predeterminada es de 20 segundos. |
Cómo borrar la demora de la encuesta | La cantidad de segundos que se debe esperar después de borrar un clúster para comenzar un sondeo para saber si se borró el clúster. El valor predeterminado es 30 segundos. |
Intervalo de encuesta | La cantidad de segundos que se debe esperar entre encuestas para el estado del clúster. El valor predeterminado es 2. |
Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON
Nombre de la propiedad de la IU del perfil de Dataproc | Nombre de la propiedad JSON del perfil de Dataproc |
---|---|
Etiqueta del perfil | name |
Nombre del perfil | label |
Descripción | description |
ID del proyecto | projectId |
Clave de la cuenta de servicio del creador | accountKey |
Región | region |
Zona | zone |
Red | network |
ID del proyecto host de la red | networkHostProjectId |
Subred | subnet |
Cuenta de servicio del ejecutor | serviceAccount |
Cantidad de instancias principales | masterNumNodes |
Tipo de máquina principal | masterMachineType |
Núcleos principales | masterCPUs |
Memoria principal (GB) | masterMemoryMB |
Tamaño del disco principal (GB) | masterDiskGB |
Tipo de disco principal | masterDiskType |
Cantidad de trabajadores principales | workerNumNodes |
Cantidad de trabajadores secundarios | secondaryWorkerNumNodes |
Tipo de máquina de trabajador | workerMachineType |
Núcleos de trabajador | workerCPUs |
Memoria de trabajador (GB) | workerMemoryMB |
Tamaño del disco del trabajador (GB) | workerDiskGB |
Tipo de disco de trabajador | workerDiskType |
Metadatos | clusterMetaData |
Etiquetas de red | networkTags |
Habilitar el inicio seguro | secureBootEnabled |
Habilitar vTPM | vTpmEnabled |
Habilitar la supervisión de integridad | integrityMonitoringEnabled |
Versión de la imagen | imageVersion |
URI de imagen personalizada | customImageUri |
Bucket de Cloud Storage | gcsBucket |
Nombre de la clave de encriptación | encryptionKeyName |
Política de ajuste de escala automático | autoScalingPolicy |
Acciones de inicialización | initActions |
Propiedades del clúster | clusterProperties |
Etiquetas | clusterLabels |
Tiempo de inactividad máximo | idleTTL |
Omitir la eliminación del clúster | skipDelete |
Habilitar la integración de Stackdriver Logging | stackdriverLoggingEnabled |
Habilitar la integración de Stackdriver Monitoring | stackdriverMonitoringEnabled |
Habilita la puerta de enlace de componentes | componentGatewayEnabled |
Preferir IP externa | preferExternalIP |
Crear un retraso de la encuesta | pollCreateDelay |
Cómo crear un Jitter de encuesta | pollCreateJitter |
Cómo borrar la demora de la encuesta | pollDeleteDelay |
Intervalo de encuesta | pollInterval |
Prácticas recomendadas
Cuando crees un clúster estático para tus canalizaciones, consulta el Recomendaciones para la configuración del clúster.
¿Qué sigue?
- Obtén más información sobre cómo administrar perfiles de procesamiento.