Se usó la API de Cloud Translation para traducir esta página.

Administra perfiles de procesamiento

Un perfil de procesamiento especifica cómo y dónde se ejecuta una canalización. Encapsula cualquier información necesaria para configurar y borrar el entorno de ejecución físico de una canalización. Un perfil de procesamiento especifica un nombre de aprovisionador y la configuración de ese aprovisionador.

Cada perfil de procesamiento tiene un alcance: sistema o usuario. Puedes usar perfiles de procesamiento del sistema para cualquier espacio de nombres que se encuentre debajo de él. Los perfiles de procesamiento del usuario existen dentro de un espacio de nombres, y solo las canalizaciones de ese espacio de nombres pueden usarlos. Los perfiles de procesamiento se pueden asignar a canalizaciones por lotes. Cuando se asigna un perfil de procesamiento a una canalización, se usará el aprovisionador especificado en el perfil para crear un clúster en el que se ejecutará la canalización.

Por ejemplo, un administrador podría decidir crear perfiles de procesamiento pequeños, medianos y grandes. Configura cada perfil con las credenciales de Google Cloud necesarias para crear y borrar clústeres de Dataproc en la cuenta Google Cloud de la empresa.

El perfil pequeño está configurado para crear un clúster de 5 nodos.
El perfil medio está configurado para crear un clúster de 20 nodos.
El perfil grande está configurado para crear un clúster de 50 nodos.

El administrador asigna el perfil pequeño a las canalizaciones que están programadas para ejecutarse cada hora en pequeñas cantidades de datos. Asignan el perfil grande a las canalización que están programadas para ejecutarse todos los días en una gran cantidad de datos.

Perfil de procesamiento predeterminado

De forma predeterminada, Cloud Data Fusion usa el escalamiento automático como perfil de procesamiento. Es difícil calcular la cantidad adecuada de trabajadores (nodos) del clúster de una carga de trabajo, y un tamaño único del clúster para toda la canalización no suele ser lo ideal. El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos del clúster y habilitar el ajuste de escala automático de la VM de trabajador del clúster. Para obtener más información, consulta Ajuste de escala automático.

En la página Configuración de procesamiento, en la que puedes ver una lista de perfiles, hay una columna Total de núcleos, que tiene la cantidad máxima de CPU virtuales a las que puede escalar el perfil, como Up to 84.

Perfiles de procesamiento del sistema y del usuario

Un perfil de procesamiento indica qué aprovisionador usar cuando se crea un clúster y especifica su configuración. También especifican la configuración del aprovisionador que se debe usar cuando se crea un clúster.

Para crear un perfil de procesamiento del sistema, ve a la página Administrador del sistema en Studio de Cloud Data Fusion. En esta página, se enumeran todos los perfiles de procesamiento del sistema y te permite crear nuevos perfiles de procesamiento del sistema.
Para crear un perfil de procesamiento de usuarios, ve a la página Administración de espacios de nombres en Studio de Cloud Data Fusion y, luego, selecciona el espacio de nombres en el que deseas crear el perfil. Luego, puedes crear un perfil que solo exista dentro de ese espacio de nombres.

Asignación de perfiles de procesamiento

Puedes asignar perfiles de procesamiento a canalizaciones por lotes de las siguientes maneras:

Asigna un perfil predeterminado para la instancia de Cloud Data Fusion.
Asigna un perfil predeterminado para un espacio de nombres específico.
Asigna un perfil a una canalización por lotes para usar en las ejecuciones que se inician manualmente.
Asignar un perfil a una programación de canalización

Si se configura un perfil en la programación que activa una ejecución, o si ejecutas manualmente una canalización y hay un perfil asignado a esa canalización, Cloud Data Fusion usa ese perfil de procesamiento.

Si no se configura ningún perfil, Cloud Data Fusion usa el perfil predeterminado para el espacio de nombres. Si no se establece un perfil predeterminado para el espacio de nombres,

Cloud Data Fusion usa el perfil predeterminado del sistema. Si no se establece un valor predeterminado del sistema, se usa el perfil integrado.

Asigna un perfil de procesamiento predeterminado

Para asignar perfiles predeterminados a un espacio de nombres o una instancia de Cloud Data Fusion, ve a Cloud Data Fusion Studio y haz clic en Administrador del sistema > Configuración > Perfiles de procesamiento del sistema. Para seleccionar el valor predeterminado, haz clic en la estrella junto al nombre del perfil.

Opcional: Usa los microservicios de Preferences para establecer perfiles predeterminados

Para establecer el perfil predeterminado, configura una preferencia en la instancia de Cloud Data Fusion con la clave system.profile.name y el valor system:<profile-name>.
Para establecer el perfil predeterminado de un espacio de nombres, establece una preferencia en el espacio de nombres elegido con la clave system.profile.name y el valor <scope>:<profile-name>.

Asigna un perfil de procesamiento para las ejecuciones manuales

Para asignar un perfil que se usará para las ejecuciones manuales de canalización, sigue estos pasos:

Navega a la página de detalles de la canalización.
Haz clic en Configurar > Configuración de procesamiento.
Selecciona un perfil y haz clic en Guardar. El perfil seleccionado se usa cada vez que se ejecuta la canalización de forma manual.

Como alternativa, puedes usar los microservicios de preferencias para establecer el perfil de las ejecuciones manuales configurando la preferencia en la entidad DataPipelineWorkflow con la clave system.profile.name y el valor <scope>:<profile-name>.

Asigna un perfil de procesamiento a un programa

Cada vez que creas un programa para una canalización, puedes asignarle un perfil. Cada vez que la programación active una ejecución de canalización, usará ese perfil para la ejecución. Esto es cierto para los programas de tiempo y los programas que activan otras canalización.

Anula la configuración de un perfil de procesamiento

Cuando se crea un perfil, cada parámetro de configuración se puede inmovilizar para que sea inmutable. Sin embargo, si los parámetros de configuración no están bloqueados, se pueden anular durante el tiempo de ejecución. Para anular la configuración del perfil, sigue estos pasos:

En la página Lista de canalizaciones, selecciona la canalización implementada que deseas ejecutar.
En la página Detalles de la canalización, haz clic en Configurar.
Elige un perfil de procesamiento y haz clic en Personalizar.
Cambia la configuración que desees y haz clic en Guardar.

Puedes usar argumentos del entorno de ejecución y propiedades de programación para modificar el tamaño del clúster y otros parámetros de configuración.

Para anular el perfil que se usó, establece un argumento de tiempo de ejecución con la clave system.profile.name y el valor <scope>:<profile-name>.
Para anular una propiedad de perfil, establece un argumento de tiempo de ejecución con la clave system.profile.properties.<property-name> y un valor igual al valor de esa propiedad.

Por ejemplo, para anular el numWorkerssetting a un valor de 10, establece una preferencia o un argumento de tiempo de ejecución con la clave system.profile.properties.numWorkers y el valor 10.

¿Qué sigue?

Obtén más información sobre los aprovisionadores en Cloud Data Fusion.
Obtén más información sobre la configuración de clústeres de Dataproc.