Esta página se ha traducido con Cloud Translation API.

Propiedades del clúster

Apache Hadoop YARN, HDFS, Spark y propiedades relacionadas

Los componentes de código abierto instalados en los clústeres de Dataproc contienen muchos archivos de configuración. Por ejemplo, Apache Spark y Apache Hadoop tienen varios archivos de configuración XML y de texto sin formato. Puedes usar la marca ‑‑properties del comando gcloud dataproc clusters create para modificar muchos archivos de configuración comunes al crear un clúster.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de cadena:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix se asigna a un archivo de configuración predefinido, tal como se muestra en la tabla de abajo, y property se asigna a una propiedad del archivo.
El delimitador predeterminado que se usa para separar varias propiedades de clúster es la coma (,). Sin embargo, si se incluye una coma en el valor de una propiedad, debe cambiar el delimitador especificando "^delimiter^" al principio de la lista de propiedades (consulte Escape de temas de gcloud para obtener más información).
- Ejemplo con el delimitador "#":
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Ejemplos

Comando gcloud

Para cambiar el ajuste spark.master en el archivo spark-defaults.conf, añade la siguiente marca gcloud dataproc clusters create --properties:

--properties 'spark:spark.master=spark://example.com'

Puedes cambiar varias propiedades a la vez en uno o varios archivos de configuración mediante un separador de comas. Cada propiedad debe especificarse en el formato completo file_prefix:property=value. Por ejemplo, para cambiar el ajuste spark.master del archivo spark-defaults.conf y el ajuste dfs.hosts del archivo hdfs-site.xml, usa la siguiente marca --properties al crear un clúster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Para definir spark.executor.memory como 10g, inserta el siguiente ajuste properties en la sección SoftwareConfig de tu solicitud clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Una forma sencilla de ver cómo crear el cuerpo JSON de una solicitud REST de la API de Dataproc Clusters es iniciar el comando gcloud equivalente con la marca --log-http. A continuación, se muestra un ejemplo de comando gcloud dataproc clusters create, que define las propiedades del clúster con la marca --properties spark:spark.executor.memory=10g. El registro stdout muestra el cuerpo de la solicitud REST resultante (el fragmento de properties se muestra a continuación):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Salida:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Asegúrate de cancelar el comando después de que aparezca el cuerpo JSON en la salida si no quieres que el comando surta efecto.

Consola

Para cambiar el ajuste spark.master en el archivo spark-defaults.conf, sigue estos pasos:

En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. Haz clic en el panel Personalizar clúster y, a continuación, desplázate hasta la sección Propiedades del clúster.
Haga clic en + AÑADIR PROPIEDADES. Seleccione spark en la lista Prefijo y, a continuación, añada "spark.master" en el campo Clave y el ajuste en el campo Valor.

Propiedades de clústeres y de trabajos

Las propiedades de Apache Hadoop YARN, HDFS, Spark y otras con prefijo de archivo se aplican a nivel de clúster cuando creas un clúster. Estas propiedades no se pueden aplicar a un clúster después de crearlo. Sin embargo, muchas de estas propiedades también se pueden aplicar a tareas específicas. Cuando se aplica una propiedad a un trabajo, no se usa el prefijo del archivo.

En el siguiente ejemplo, se asigna 4 g de memoria de ejecutor de Spark a un trabajo de Spark (se omite el prefijo spark:).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Las propiedades de las tareas se pueden enviar en un archivo mediante la marca gcloud dataproc jobs submit job-type --properties-file (consulta, por ejemplo, la descripción de --properties-file para enviar una tarea de Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

El PROPERTIES_FILE es un conjunto de pares key=value delimitados por saltos de línea. La propiedad que se va a definir es key y el valor que se va a asignar a la propiedad es value. Consulta la clase java.util.Properties para ver una descripción detallada del formato del archivo de propiedades.

A continuación, se muestra un ejemplo de un archivo de propiedades que se puede pasar a la marca --properties-file al enviar una tarea de Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabla de propiedades con prefijo de archivo

Prefijo de archivo	Archivo	Finalidad del archivo
capacity-scheduler	capacity-scheduler.xml	Configuración de Capacity Scheduler de Hadoop YARN
core	core-site.xml	Configuración general de Hadoop
distcp	distcp-default.xml	Configuración de copia distribuida de Hadoop
flink	flink-conf.yaml	Configuración de Flink
flink-log4j	log4j.properties	Archivo de configuración de Log4j
hadoop-env	hadoop-env.sh	Variables de entorno específicas de Hadoop
hadoop-log4j	log4j.properties	Archivo de configuración de Log4j
hbase	hbase-site.xml	Configuración de HBase
hbase-log4j	log4j.properties	Archivo de configuración de Log4j
hdfs	hdfs-site.xml	Configuración de HDFS de Hadoop
hive	hive-site.xml	Configuración de Hive
hive-log4j2	hive-log4j2.properties	Archivo de configuración de Log4j
hudi	hudi-default.conf	Configuración de Hudi
mapred	mapred-site.xml	Configuración de MapReduce de Hadoop
mapred-env	mapred-env.sh	Variables de entorno específicas de MapReduce de Hadoop
cerdo	pig.properties	Configuración de Pig
pig-log4j	log4j.properties	Archivo de configuración de Log4j
presto	config.properties	Configuración de Presto
presto-jvm	jvm.config	Configuración de JVM específica de Presto
spark	spark-defaults.conf	Configuración de Spark
spark-env	spark-env.sh	Variables de entorno específicas de Spark
spark-log4j	log4j.properties	Archivo de configuración de Log4j
tez	tez-site.xml	Configuración de Tez
webcat-log4j	webhcat-log4j2.properties	Archivo de configuración de Log4j
lana	yarn-site.xml	Configuración de Hadoop YARN
yarn-env	yarn-env.sh	Variables de entorno específicas de Hadoop YARN
zeppelin	zeppelin-site.xml	Configuración de Zeppelin
zeppelin-env	zeppelin-env.sh	Variables de entorno específicas de Zeppelin (solo para componentes opcionales)
zeppelin-log4j	log4j.properties	Archivo de configuración de Log4j
cuidador del zoo	zoo.cfg	Configuración de Zookeeper
zookeeper-log4j	log4j.properties	Archivo de configuración de Log4j

Notas

Algunas propiedades están reservadas y no se pueden anular porque afectan a la funcionalidad del clúster de Dataproc. Si intentas cambiar una propiedad reservada, recibirás un mensaje de error al crear el clúster.
Puedes especificar varios cambios separándolos con comas.
La marca --properties no puede modificar los archivos de configuración que no se muestran arriba.
Los cambios en las propiedades se aplicarán antes de que se inicien los daemons en tu clúster.
Si la propiedad especificada existe, se actualizará. Si la propiedad especificada no existe, se añadirá al archivo de configuración.

Propiedades del servicio Dataproc

Las propiedades que se indican en esta sección son específicas de Dataproc. Estas propiedades se pueden usar para configurar aún más la funcionalidad de tu clúster de Dataproc.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de cadena:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

El delimitador predeterminado que se usa para separar varias propiedades de clúster es la coma (,). Sin embargo, si se incluye una coma en el valor de una propiedad, debe cambiar el delimitador especificando "^delimiter^" al principio de la lista de propiedades (consulte Escape de temas de gcloud para obtener más información).
- Ejemplo con el delimitador "#":
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Ejemplo:

Crea un clúster y define el modo de flexibilidad mejorado en la reorganización de trabajadores principales de Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tabla de propiedades del servicio Dataproc

Prefijo de propiedad	Propiedad	Valores	Descripción
dataproc	agent.process.threads.job.min	`number`	Dataproc ejecuta los controladores de tareas de los usuarios simultáneamente en un grupo de subprocesos. Esta propiedad controla el número mínimo de subprocesos del grupo de subprocesos para que el inicio sea rápido, incluso cuando no se estén ejecutando trabajos (valor predeterminado: 10).
dataproc	agent.process.threads.job.max	`number`	Dataproc ejecuta los controladores de tareas de los usuarios simultáneamente en un grupo de subprocesos. Esta propiedad controla el número máximo de subprocesos del grupo de subprocesos, por lo que limita la simultaneidad máxima de los trabajos de los usuarios. Aumenta este valor para obtener una mayor simultaneidad (valor predeterminado: 100).
dataproc	am.primary_only	`true` o `false`	Define esta propiedad como `true` para evitar que el maestro de aplicaciones se ejecute en los trabajadores preemptibles del clúster de Dataproc. Nota: Esta función solo está disponible con Dataproc 1.2 y versiones posteriores. El valor predeterminado es `false`.
dataproc	conda.env.config.uri	`gs://<path>`	Ubicación en Cloud Storage del archivo de configuración del entorno de Conda. Se creará y activará un nuevo entorno de Conda basado en este archivo. Para obtener más información, consulta Usar propiedades de clúster relacionadas con Conda. Valor predeterminado: `empty`.
dataproc	conda.packages	Paquetes de Conda	Esta propiedad toma una lista de paquetes de Conda separados por comas con versiones específicas que se instalarán en el entorno de `base` Conda. Para obtener más información, consulta Usar propiedades de clúster relacionadas con Conda. Valor predeterminado: `empty`.
dataproc	dataproc.allow.zero.workers	`true` o `false`	Asigna el valor `true` a esta propiedad SoftwareConfig en una solicitud de la API `clusters.create` de Dataproc para crear un clúster de un solo nodo, lo que cambia el número predeterminado de trabajadores de 2 a 0 y coloca los componentes de los trabajadores en el host maestro. También se puede crear un clúster de un solo nodo desde la Google Cloud consola o con la CLI de Google Cloud. Para ello, debes definir el número de trabajadores en `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	Al definir un valor, se crea un maestro de Dataproc con memoria persistente Intel Optane DC. Nota: Las VMs Optane solo se pueden crear en zonas `us-central1-f`, solo con el tipo de máquina `n1-highmem-96-aep` y solo en proyectos incluidos en la lista blanca.
Dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	Si se asigna un valor, se crea un trabajador de Dataproc con memoria persistente Intel Optane DC. Nota: Las VMs Optane solo se pueden crear en zonas `us-central1-f`, solo con el tipo de máquina `n1-highmem-96-aep` y solo en proyectos incluidos en la lista blanca.
Dataproc:	dataproc.await-new-workers-service-registration	`true` o `false`	Esta propiedad está disponible en las imágenes 2.0.49 y versiones posteriores. El valor predeterminado es `false`. Define esta propiedad como `true` para esperar a que los nuevos trabajadores principales registren líderes de servicio, como HDFS NameNode y YARN ResourceManager, durante la creación o el escalado vertical de un clúster (solo se monitorizan los servicios HDFS y YARN). Si se define como `true` y un nuevo trabajador no consigue registrarse en un servicio, se le asigna el estado `FAILED`. Si el clúster se está ampliando, se elimina el trabajador que ha fallado. Si se está creando el clúster, se elimina un trabajador con errores si se ha especificado la marca `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` o el campo `actionOnFailedPrimaryWorkers=DELETE` de la API como parte del comando `gcloud` o de la solicitud de creación de clúster de la API.
Dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propiedad toma una lista de asignaciones de usuarios a cuentas de servicio. Los usuarios asignados pueden enviar cargas de trabajo interactivas al clúster con identidades de usuario aisladas (consulta Multiarrendamiento seguro basado en cuentas de servicio de Dataproc).
Dataproc:	dataproc.cluster.caching.enabled	`true` o `false`	Cuando la caché de clúster está habilitada, el clúster almacena en caché los datos de Cloud Storage a los que acceden las tareas de Spark, lo que mejora el rendimiento de las tareas sin comprometer la coherencia. Valor predeterminado: `false`.
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` o `false`	Si se define como `true`, Eliminación programada de clústeres tiene en cuenta la actividad de las APIs de trabajos de YARN y Dataproc al calcular el tiempo de inactividad del clúster. Si se define como `false`, solo se tiene en cuenta la actividad de la API de tareas de Dataproc. El valor predeterminado es `true`. Para obtener más información, consulta Cálculo del tiempo de inactividad del clúster.
dataproc	dataproc.conscrypt.provider.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) Conscrypt como proveedor de seguridad principal de Java. Nota: Conscrypt está habilitado de forma predeterminada en Dataproc 1.2 y versiones posteriores, pero está inhabilitado en 1.0 y 1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propiedad toma una lista de asignaciones de usuarios a cuentas de servicio separadas por comas. Si se crea un clúster con esta propiedad definida, cuando un usuario envíe un trabajo, el clúster intentará suplantar la cuenta de servicio correspondiente al acceder a Cloud Storage a través del conector de Cloud Storage. Esta función requiere la versión `2.1.4` o una posterior del conector de Cloud Storage. Para obtener más información, consulta Multitenancy cooperativa de Dataproc. Valor predeterminado: `empty`.
dataproc	dataproc.control.max.assigned.job.tasks	`100`	Esta propiedad limita el número de tareas que se pueden ejecutar simultáneamente en un nodo maestro de un clúster. Si el número de tareas activas supera el límite de tareas, las tareas nuevas se ponen en cola hasta que se completen las tareas en ejecución y se liberen recursos para permitir que se programen nuevas tareas. Nota: No se recomienda establecer un límite de tareas predeterminado superior a `100` (el valor predeterminado), ya que puede provocar una condición de falta de memoria en el nodo maestro.
dataproc	dataproc:hudi.version	Versión de Hudi	Define la versión de Hudi que se usa con el componente de Hudi de Dataproc opcional. Nota: Dataproc define esta versión para que sea compatible con la versión de imagen del clúster. Si lo define el usuario, la creación del clúster puede fallar si la versión especificada no es compatible con la imagen del clúster.
dataproc	dataproc.lineage.enabled	`true`	Habilita el linaje de datos en un clúster de Dataproc para tareas de Spark.
dataproc	dataproc.localssd.mount.enable	`true` o `false`	Indica si se deben montar los SSD locales como directorios temporales de Hadoop o Spark y como directorios de datos de HDFS (valor predeterminado: `true`).
dataproc	dataproc.logging.extended.enabled	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros de Cloud Logging para lo siguiente: `knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway` y `spark-history-server` (valor predeterminado: `false`). Para obtener más información, consulta Registros de clústeres de Dataproc en Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) Cloud Logging (valor predeterminado: `true`). Consulta los precios de Cloud Logging para ver los cargos asociados.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros del controlador de tareas de Dataproc en Cloud Logging. Consulta la salida y los registros de las tareas de Dataproc (valor predeterminado: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros de contenedores de YARN en Cloud Logging. Consulta las opciones de salida de trabajos de Spark. Valor predeterminado: `false`.
dataproc	dataproc.logging.syslog.enabled	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros syslog de la VM en Cloud Logging (valor predeterminado: `false`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` o `RUN_AFTER_SERVICES`	En los clústeres de imágenes 2.0 o versiones posteriores, si se asigna el valor `RUN_AFTER_SERVICES`, las acciones de inicialización del nodo maestro se ejecutarán después de que se inicialicen HDFS y los servicios que dependan de HDFS. Entre los servicios que dependen de HDFS se incluyen HBase, Hive Server2, Ranger, Solr y los servidores de historial de Spark y MapReduce. Valor predeterminado: `RUN_BEFORE_SERVICES`.
dataproc	dataproc.monitoring.stackdriver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) el agente de monitorización (valor predeterminado: `false`). Esta propiedad está obsoleta. Consulta Habilitar la recogida de métricas personalizadas para habilitar la recogida de métricas de OSS de Dataproc en Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	El uso medio de memoria del controlador, que determina el número máximo de trabajos simultáneos que ejecutará un clúster. El valor predeterminado es `1` GB. Un valor más pequeño, como `256`, puede ser adecuado para los trabajos de Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	Las tareas se limitan si se supera esta tasa. La tasa predeterminada es de `1.0` CPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	Número máximo de trabajos simultáneos. Si no se define este valor al crear el clúster, el límite superior de los trabajos simultáneos se calcula como `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. `masterMemoryMb` se determina en función del tipo de máquina de la VM maestra. `masterMemoryMbPerJob` tiene el valor `1024` de forma predeterminada, pero se puede configurar al crear el clúster con la propiedad de clúster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	Cantidad máxima de RAM que se puede usar. Si el uso actual supera este umbral, no se podrán programar nuevos trabajos. El valor predeterminado es `0.9` (90%). Si se asigna el valor `1.0`, se inhabilita la limitación de tareas de uso de memoria principal.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Cantidad mínima de memoria libre en megabytes que necesita el controlador de trabajos de Dataproc para programar otro trabajo en el clúster. El valor predeterminado es `256` MB.
dataproc	dataproc.snap.enabled	`true` o `false`	Habilita o inhabilita el demonio de Ubuntu Snap. El valor predeterminado es `true`. Si se define como `false`, los paquetes Snap preinstalados en la imagen no se verán afectados, pero la actualización automática estará inhabilitada. Se aplica a las imágenes de Ubuntu 1.4.71, 1.5.46, 2.0.20 y versiones posteriores.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	En los clústeres de imágenes anteriores a la versión 2.0, RUN_BEFORE_SERVICES no está definido, pero el usuario puede definirlo al crear el clúster. En los clústeres de imágenes 2.0 o versiones posteriores, se define RUN_BEFORE_SERVICES y no se puede transferir la propiedad al clúster (el usuario no puede cambiarla). Para obtener información sobre el efecto de este ajuste, consulta Consideraciones y directrices importantes: procesamiento de inicialización.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` o `false`	El valor predeterminado es `true`. Defina el valor `false` para evitar que Dataproc finalice las aplicaciones YARN "huérfanas". Dataproc considera que una aplicación de YARN es huérfana si el controlador de tarea que la envió ha finalizado. Advertencia: Si usas el modo de clúster de Spark (`spark.submit.deployMode=cluster`) y defines `spark.yarn.submit.waitAppCompletion=false`, el controlador de Spark se cierra sin esperar a que se completen las aplicaciones de YARN. En este caso, define `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. También debe asignar el valor `false` a esta propiedad si envía trabajos de Hive.
dataproc	diagnostic.capture.enabled	`true` o `false`	Habilita la recogida de datos de diagnóstico de puntos de control de clústeres. Valor predeterminado: `false`.
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Si se define como `GOOGLE_DATAPROC_DIAGNOSE`, los datos de diagnóstico de los puntos de control del clúster, que se guardan en Cloud Storage, se comparten con el equipo de Asistencia de Dataproc. El valor predeterminado es "sin definir".
dataproc	efm.spark.shuffle	`primary-worker`	Si se define como `primary-worker`, los datos de aleatorización de Spark se escriben en los trabajadores principales. Para obtener más información, consulta el artículo sobre el modo de flexibilidad mejorado de Dataproc.
dataproc	job.history.to-gcs.enabled	`true` o `false`	Permite conservar los archivos de historial de MapReduce y Spark en el bucket temporal de Dataproc (valor predeterminado: `true` para las versiones de imagen 1.5 y posteriores). Los usuarios pueden sobrescribir las ubicaciones de conservación de los archivos de historial de trabajos mediante las siguientes propiedades: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` y `spark.history.fs.logDirectory`. Consulta Servidor de historial persistente de Dataproc para obtener información sobre estas y otras propiedades de clúster asociadas al historial de tareas y a los archivos de eventos de Dataproc.
dataproc	jobs.file-backed-output.enable	`true` o `false`	Configura las tareas de Dataproc para que canalicen su salida a archivos temporales en el directorio `/var/log/google-dataproc-job`. Debe tener el valor `true` para habilitar el registro del controlador de trabajos en Cloud Logging (valor predeterminado: `true`).
dataproc	jupyter.listen.all.interfaces	`true` o `false`	Para reducir el riesgo de ejecución de código remoto a través de APIs de servidor de cuaderno no seguras, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es `false`, que restringe las conexiones a `localhost` (`127.0.0.1`) cuando Component Gateway está habilitado (no es necesario activar Component Gateway para las imágenes 2.0 y posteriores). Este ajuste predeterminado se puede anular configurando esta propiedad en `true` para permitir todas las conexiones.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Ubicación de Cloud Storage para guardar los cuadernos de Jupyter.
dataproc	kerberos.beta.automatic-config.enable	`true` o `false`	Si se define como `true`, los usuarios no tienen que especificar la contraseña principal raíz de Kerberos con las marcas `--kerberos-root-principal-password` y `--kerberos-kms-key-uri` (valor predeterminado: `false`). Consulta Habilitar el modo Seguro de Hadoop a través de Kerberos para obtener más información.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	Nombre de host o dirección del servidor de administración remoto (a menudo es el mismo que el del servidor KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	Nombre de host o dirección del KDC remoto.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	Los nombres de los reinos pueden estar formados por cualquier cadena ASCII en MAYÚSCULAS. Normalmente, el nombre del ámbito es el mismo que el nombre de dominio DNS (en MAYÚSCULAS). Por ejemplo, si las máquinas se llaman "`machine-id`.example.west-coast.mycompany.com", el dominio asociado puede designarse como "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña compartida cifrada con KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo cifrado con KMS que contiene la clave maestra de la base de datos KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo cifrado con KMS que contiene la contraseña de la clave del archivo de almacén de claves.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado con KMS que contiene la contraseña del almacén de claves.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo de almacén de claves que contiene el certificado comodín y la clave privada que utilizan los nodos del clúster.
dataproc	kerberos.kms.key.uri	`KMS key URI`	El URI de la clave de KMS que se usa para descifrar la contraseña raíz. Por ejemplo, `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulta ID de recurso de clave).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña cifrada con KMS de la entidad de seguridad raíz de Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	Tiempo de vida máximo del vale de concesión de vales.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado con KMS que contiene la contraseña del archivo del almacén de confianza.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo del almacén de confianza cifrado con KMS que contiene certificados de confianza.
dataproc	pip.packages	Paquetes de pip	Esta propiedad toma una lista de paquetes Pip separados por comas con versiones específicas que se instalarán en el `base` entorno de Conda. Para obtener más información, consulta Propiedades de clúster relacionadas con Conda. Valor predeterminado: `empty`.
dataproc	ranger.kms.key.uri	`KMS key URI`	El URI de la clave de KMS que se usa para descifrar la contraseña del usuario administrador de Ranger. Por ejemplo, `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulta ID de recurso de clave).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario administrador de Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario administrador de la base de datos de Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	El nombre de conexión de la instancia de Cloud SQL, por ejemplo, `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario raíz de la instancia de Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` o `false`	Indica si la comunicación entre las instancias del clúster y la instancia de Cloud SQL debe realizarse a través de una IP privada (el valor predeterminado es `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	Ruta de Cloud Storage que actuará como directorio principal de Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Tiempo que esperará el script de inicio de Dataproc a que hadoop-hdfs-namenode se enlace a los puertos antes de decidir si se ha iniciado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Tiempo que esperará la secuencia de comandos de inicio de Dataproc para que el servicio hive-metastore se enlace a los puertos antes de decidir si el inicio se ha completado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Tiempo que esperará el script de inicio de Dataproc a que hive-server2 se enlace a los puertos antes de decidir si se ha iniciado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	user-attribution.enabled	`true` o `false`	Asigna el valor `true` a esta propiedad para atribuir un trabajo de Dataproc a la identidad del usuario que lo ha enviado (el valor predeterminado es `false`).
dataproc	yarn.docker.enable	`true` o `false`	Asigna el valor `true` para habilitar la función Dataproc Docker on YARN (el valor predeterminado es `false`).
dataproc	yarn.docker.image	`docker image`	Cuando habilitas la función Dataproc Docker on YARN (`dataproc:yarn.docker.enable=true`), puedes usar esta propiedad opcional para especificar tu imagen de Docker (por ejemplo, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Si se especifica, la imagen se descarga y se almacena en caché en todos los nodos del clúster durante la creación del clúster.
dataproc	yarn.log-aggregation.enabled	`true` o `false`	Permite (`true`) activar la agregación de registros de YARN en el `temp bucket` del clúster. El nombre del segmento tiene el siguiente formato: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. Valor predeterminado: `true` para las versiones de imagen 1.5 y posteriores. Nota: El bucket temporal del clúster no se elimina cuando se elimina el clúster. Los usuarios también pueden definir la ubicación de los registros de YARN agregados sobrescribiendo la propiedad de YARN `yarn.nodemanager.remote-app-log-dir`.
knox	gateway.host	`ip address`	Para reducir el riesgo de ejecución de código remoto a través de APIs de servidores de cuadernos no seguros, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es `127.0.0.1`, que restringe las conexiones a `localhost` cuando Component Gateway está habilitado. El ajuste predeterminado se puede anular. Por ejemplo, puedes definir esta propiedad como `0.0.0.0` para permitir todas las conexiones.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Ubicación de Cloud Storage para guardar los cuadernos de Zeppelin.
zeppelin	zeppelin.server.addr	`ip address`	Para reducir el riesgo de ejecución de código remoto a través de APIs de servidores de cuadernos no seguros, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es `127.0.0.1`, que restringe las conexiones a `localhost` cuando Component Gateway está habilitado. Este ajuste predeterminado se puede anular. Por ejemplo, puedes definir esta propiedad como `0.0.0.0` para permitir todas las conexiones.

¹Archivo de almacén de claves: contiene el certificado SSL. Debe estar en formato de almacén de claves de Java (JKS). Cuando se copia en las VMs, se cambia el nombre a keystore.jks. El certificado SSL debe ser un certificado comodín que se aplique a cada nodo del clúster.

²Archivo de almacén de confianza: el archivo de almacén de confianza debe estar en formato de almacén de claves de Java (JKS). Cuando se copia en las VMs, se cambia el nombre a truststore.jks.

Propiedades del clúster Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Apache Hadoop YARN, HDFS, Spark y propiedades relacionadas

Formato

Ejemplos

Comando gcloud

API REST

Consola

Propiedades de clústeres y de trabajos

Tabla de propiedades con prefijo de archivo

Propiedades del servicio Dataproc

Formato

Tabla de propiedades del servicio Dataproc

Propiedades del clúster