Administra perfiles de procesamiento

Un perfil de procesamiento especifica cómo y dónde se ejecuta una canalización. Integra encapsula toda la información necesaria para configurar y borrar de ejecución de una canalización. Un perfil de procesamiento especifica un provisioner y los ajustes de configuración para ese aprovisionador

Cada perfil de procesamiento tiene un alcance: system o user. Puedes usar sistemas de procesamiento perfiles para cualquier espacio de nombres debajo de él. Los perfiles de procesamiento del usuario existen dentro de un espacio de nombres, y solo las canalizaciones de ese espacio de nombres pueden usarlos. Los perfiles de procesamiento pueden asignarse a canalizaciones por lotes. Cuando se crea un perfil de procesamiento asignado a una canalización, el aprovisionador especificado en el perfil se usará para crear un clúster en el que se ejecutará la canalización.

Por ejemplo, un administrador puede decidir crear imágenes pequeñas, medianas y grandes de Google Cloud. Configura cada perfil con la API de Google Cloud las credenciales necesarias para crear y borrar clústeres de Dataproc en la cuenta de Google Cloud de la empresa.

  • El perfil pequeño se configura para crear un clúster de 5 nodos.
  • El perfil medio se configura para crear un clúster de 20 nodos.
  • El perfil grande se configura para crear un clúster de 50 nodos.

El administrador asigna el perfil pequeño a las canalizaciones que están programadas para se ejecutan cada hora con pequeñas cantidades de datos. Asignan el perfil grande a las canalización que están programadas para ejecutarse todos los días en una gran cantidad de datos.

Perfil de procesamiento predeterminado

De forma predeterminada, Cloud Data Fusion usa el escalamiento automático como perfil de procesamiento. Estimar la cantidad adecuada de trabajadores del clúster (nodos) para una carga de trabajo es difícil, y un tamaño de clúster único para una canalización completa a menudo no es ideal. El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar y habilita el ajuste de escala automático de VM de trabajador del clúster. Para ver más consulta Ajuste de escala automático.

En la página Configuración de procesamiento, donde puedes ver una lista de perfiles, encontrarás Una columna Total de núcleos, que tiene la cantidad máxima de CPU virtuales que el perfil puede escalar hasta, como Up to 84.

Perfiles de computación del sistema y del usuario

Un perfil de procesamiento indica qué aprovisionador se debe usar cuando se crea un clúster y especifica la configuración del clúster. También especifican el aprovisionador predeterminada que se debe usar cuando se crea un clúster.

  • Para crear un perfil de procesamiento del sistema, ve a la página Administrador del sistema en Cloud Data Fusion Studio. En esta página, se enumeran todos los perfiles de procesamiento del sistema y te permite crear nuevos perfiles de procesamiento del sistema.
  • Para crear un perfil de procesamiento del usuario, ve a Espacio de nombres de administración en Cloud Data Fusion Studio y, luego, selecciona espacio de nombres para crear el perfil. Luego, puedes crear un perfil que solo exista dentro de ese espacio de nombres.

Asignación de perfiles de procesamiento

Puedes asignar perfiles de cómputos a canalizaciones por lotes de las siguientes maneras:

  • Asignar un perfil predeterminado para la instancia de Cloud Data Fusion.
  • Asigna un perfil predeterminado para un espacio de nombres específico.
  • Asignar un perfil a una canalización por lotes para usarlo en las ejecuciones que se inician manualmente.
  • Asignar un perfil a una programación de canalización

Si se configura un perfil en la programación que activa una ejecución o si ejecutas una canalización y hay un perfil asignado a ella Cloud Data Fusion usa ese perfil de procesamiento.

Si no se configura ningún perfil, Cloud Data Fusion usa el perfil predeterminado para la espacio de nombres. Si no se configuró un perfil predeterminado para el espacio de nombres,

Cloud Data Fusion usa el perfil predeterminado del sistema. Si no se establece ningún valor predeterminado del sistema, se usará el perfil integrado.

Asigna un perfil de procesamiento predeterminado

Para asignar perfiles predeterminados a un espacio de nombres o una instancia de Cloud Data Fusion, ve a a Cloud Data Fusion Studio y haz clic en Administrador del sistema > Configuración > Perfiles de procesamiento del sistema. Para seleccionar el de forma predeterminada, haz clic en la estrella que aparece junto al perfil de la fuente de datos.

Opcional: Usa los microservicios Preferences para establecer perfiles predeterminados

  • Para establecer el perfil predeterminado, configura una preferencia en la instancia de Cloud Data Fusion con la clave system.profile.name y el valor system:<profile-name>.
  • Para configurar el perfil predeterminado de un espacio de nombres, establece una preferencia en el espacio de nombres elegido con la clave system.profile.name y el valor <scope>:<profile-name>

Asigna un perfil de procesamiento para ejecuciones manuales

Si deseas asignar un perfil para usarlo en ejecuciones manuales de canalizaciones, sigue estos pasos:

  1. Navega a la página de detalles de la canalización.
  2. Haz clic en Configurar > Configuración de procesamiento.
  3. Selecciona un perfil y haz clic en Guardar. Se usa el perfil seleccionado cada vez que la canalización se ejecuta de forma manual.

También puedes usar los microservicios Preferences para establecer el perfil de ejecuciones manuales estableciendo preferencias en la entidad DataPipelineWorkflow con clave system.profile.name y el valor <scope>:<profile-name>.

Asigna un perfil de procesamiento a un programa

Cada vez que creas un programa para una canalización, puedes asignarle un perfil. Cuando el programa active la ejecución de una canalización, usará ese perfil para la cuando se ejecute. Esto se aplica a los cronogramas de tiempo que otras canalizaciones un activador.

Anula una configuración de perfil de procesamiento

Cuando se crea un perfil, cada parámetro de configuración puede ser inmutable trabando. Sin embargo, si los parámetros de configuración no están bloqueados, se pueden anular durante el tiempo de ejecución. Para anular la configuración del perfil, sigue estos pasos:

  1. En la página Lista de canalizaciones, selecciona la canalización implementada que desees ejecutar.
  2. En la página Detalles de la canalización, haz clic en Configurar.
  3. Elige un perfil de procesamiento y haz clic en Personalizar.
  4. Cambia las opciones de configuración y haz clic en Guardar.

Puedes usar argumentos de entorno de ejecución y programar propiedades para modificar el clúster el tamaño y otros parámetros de configuración.

  • Para anular el perfil usado, establece un argumento de tiempo de ejecución con la clave system.profile.namey el valor <scope>:<profile-name>.
  • Para anular una propiedad de perfil, configura un argumento de entorno de ejecución con la clave system.profile.properties.<property-name> y un valor igual al valor para esa propiedad.

Por ejemplo, para anular el numWorkerssetting en un valor de 10, establece un el argumento preferencia o entorno de ejecución con la clave system.profile.properties.numWorkers y el valor 10.

¿Qué sigue?