Este documento explica el comportamiento, la facturación y las limitaciones de la unidad de monitoreo de rendimiento (PMU) en Compute Engine. Para saber cómo habilitar la PMU en una instancia de máquina virtual (VM) C4A o C4, consulte Habilitar la PMU en VM .
La PMU es un componente de hardware dentro del núcleo de la CPU que monitorea cómo el procesador ejecuta el código. Al habilitar la PMU en una máquina virtual C4A o C4, puede acceder a los contadores de rendimiento en la PMU mediante el software de monitoreo del rendimiento. Este enfoque le permite optimizar cargas de trabajo sensibles al rendimiento, como cargas de trabajo de computación de alto rendimiento (HPC) o aprendizaje automático (ML), ayudándole a identificar y abordar los cuellos de botella de rendimiento en sus aplicaciones.
Cómo funciona la UGP
La PMU se compone de un conjunto de contadores de hardware denominados contadores de supervisión del rendimiento (PMC). Estos contadores son registros específicos del modelo que cuentan cada vez que ocurre un evento de procesador de bajo nivel, como una predicción errónea de rama o una pérdida de caché, dentro de la CPU. Puede leer y configurar PMC en la PMU utilizando software de monitoreo de rendimiento como Intel VTune Profiler .
De forma predeterminada, la PMU está deshabilitada dentro de las máquinas virtuales. Para habilitarlo, especifique los tipos de eventos de CPU de bajo nivel para rastrear habilitando uno de los siguientes tipos de PMU:
Arquitectónico (
ARCHITECTURAL
) : Puede medir los siguientes eventos de desempeño arquitectónico:Instrucciones de rama retiradas : el número de instrucciones de rama retiradas. Utilice este evento para medir la ejecución de su código e identificar posibles cuellos de botella en el rendimiento.
Errores de rama retirados : el número de instrucciones de rama que se predijeron erróneamente, lo que provocó que el procesador se detuviera y descartara las instrucciones recuperadas. Si ve un número alto para este evento, es probable que pueda optimizar el rendimiento de la CPU.
Instrucciones retiradas : la cantidad de instrucciones que la CPU procesa con éxito. Utilice este evento para medir el rendimiento de instrucciones de la CPU.
Ranuras de arriba hacia abajo : la cantidad de ranuras disponibles dentro de la canalización de un procesador que se utilizan para ejecutar instrucciones simultáneamente. Utilice este evento para comprender la eficiencia con la que su código utiliza los recursos del procesador.
Ciclos centrales no detenidos : el número de ciclos centrales cuando el subproceso no se detiene, por ejemplo, debido a la administración de energía o a interrupciones. Utilice este evento para evaluar el uso general del procesador.
Ciclos de referencia no detenidos : el número de ciclos de referencia cuando el núcleo no está detenido, por ejemplo, al recuperar datos o instrucciones. El núcleo se detiene cuando ejecuta las instrucciones
HLT
oMWAIT
. Los ciclos de referencia funcionan a una frecuencia fija, lo que proporciona una referencia de tiempo estable incluso cuando la velocidad del procesador cambia para preservar la energía. Utilice este evento para medir el tiempo dedicado a una tarea e identificar cuellos de botella de rendimiento en su código.
Estándar (
STANDARD
) : puede medir todos los eventos del tipo de PMU arquitectónica y cualquier evento local dentro del núcleo de la CPU, incluidos los eventos de caché de nivel 2 (L2).Mejorado (
ENHANCED
) : puede medir todos los eventos del tipo de PMU estándar, cualquier evento local fuera del núcleo de la CPU, incluidos los eventos de caché de nivel 3 (L3).
Después de habilitar la PMU en una VM, la PMU se ejecuta en segundo plano y monitorea continuamente los eventos de rendimiento mediante PMC. Opcionalmente, puede configurar umbrales para PMC específicos utilizando su software de monitoreo de rendimiento preferido. Si un PMC excede su umbral designado, entonces el PMU notifica al software.
Limitaciones
La PMU tiene las siguientes limitaciones:
Solo puede habilitar la PMU en las siguientes plataformas de CPU:
plataforma de CPU Serie de máquinas compatibles Eventos de rendimiento admitidos Procesador Google Axion™ C4A Guía PMU Arm Neoverse V2 Procesador escalable Intel Xeon (Emerald Rapids) 5.ª generación C4 emeraldrapids_core.json Puede habilitar el tipo de PMU mejorada solo en máquinas virtuales que usan un tipo de máquina C4 con 96 o 192 vCPU.
Precios
No hay costos asociados con habilitar o deshabilitar la PMU en una VM.