Supervisar el estado del disco


Puede comprobar el estado de un volumen de disco persistente o Google Cloud Hyperdisk revisando la métrica del estado de rendimiento del disco . Esta métrica indica si el rendimiento del disco se ve potencialmente afectado por eventos adversos dentro de Compute Engine.

Un problema que afecta el estado de rendimiento del disco también puede ser visible en el panel de Estado del servicio personal (PSH) de su proyecto o en elGoogle Cloud Panel de estado del servicio .

Este documento analiza el estado de rendimiento del disco y cómo utilizarlo para solucionar problemas de rendimiento.

Cuándo comprobar el estado de un disco

Si nota un problema de rendimiento con un disco, verifique el estado del disco revisando la métrica del estado de rendimiento del disco. La métrica del estado de rendimiento del disco se actualiza cada minuto y representa el rendimiento del disco durante todo el minuto anterior. Para conocer los pasos para verificar el estado del disco, consulte ver el estado de rendimiento del disco .

La siguiente tabla resume los posibles valores del estado de rendimiento del disco.

Estado Significado
Healthy El rendimiento del disco es el esperado.
Degraded Es posible que observe temporalmente una latencia de E/S superior a la esperada.
Severely degraded Se están produciendo alta latencia de E/S u otros errores.

Si el estado de rendimiento no es Healthy , consulte Comprender cada estado para conocer los siguientes pasos.

Si el estado de rendimiento es Healthy , el disco funciona normalmente y es necesario buscar otras causas para el problema de rendimiento. Debe verificar si hay errores en la aplicación o el sistema operativo y asegurarse de que su disco esté optimizado correctamente. Para obtener pautas de optimización, consulte Optimizar hiperdisco y Optimizar disco persistente .

Cómo se relaciona el estado del disco con otras métricas de rendimiento del disco

El estado del disco indicado por la métrica del estado de rendimiento muestra el estado interno del disco desde la perspectiva de Google . Si el estado de un disco es Degraded o Severely Degraded , la causa raíz siempre está dentro de la infraestructura de Compute Engine.

Por lo general, no se puede cambiar el estado de un disco modificando la carga de trabajo. Sin embargo, en casos excepcionales, un cambio en la carga de trabajo puede desencadenar un problema interno, por lo que es posible mitigar un problema modificando la carga de trabajo.

Para obtener más información sobre las otras métricas de rendimiento del disco disponibles, consulte Revisar las métricas de rendimiento del disco .

Escenarios que no afectan el estado de rendimiento del disco

El estado de rendimiento del disco no está relacionado con los problemas de rendimiento causados ​​por los siguientes factores:

  • Optimización del disco incompleta o insuficiente
  • Límite de rendimiento asociado con el disco y el tipo de máquina (si el tipo de máquina elegido no puede cumplir con los requisitos de rendimiento de su carga de trabajo)
  • Mayor carga en el disco debido al tráfico de carga de trabajo
  • Error de usuario, aplicación o sistema operativo
  • Discos llenos o corruptos
  • Para volúmenes de Hyperdisk y Extreme Persistent Disk, IOPS o rendimiento insuficientemente aprovisionados.

En estas situaciones, es su responsabilidad mejorar el rendimiento, por ejemplo optimizando el disco, aumentando la carga de trabajo, cambiando el tipo de máquina y aprovisionando más capacidad, IOPS o rendimiento.

Ver el estado de un disco en Cloud Monitoring

Para ver el estado de un disco, cree un gráfico en Metrics Explorer.

Roles y permisos necesarios

Para obtener los permisos que necesita para verificar la métrica del estado de rendimiento del disco, solicite a su administrador que le otorgue las siguientes funciones de IAM en el proyecto:

Para obtener más información sobre cómo otorgar roles, consulte Administrar el acceso a proyectos, carpetas y organizaciones .

También es posible que pueda obtener los permisos necesarios a través de roles personalizados u otros roles predefinidos .

Crear un gráfico en el Explorador de métricas

Para crear un gráfico, cree una consulta con la interfaz basada en menús, Monitoring Query Language (MQL) o PromQL .

Para ver el estado de uno o más discos en un gráfico, siga estas instrucciones.
  1. En la consola de Google Cloud, vaya a la página del explorador de métricas :

    Ir al explorador de métricas

    Si utiliza la barra de búsqueda para encontrar esta página, seleccione el resultado cuyo subtítulo es Monitoreo .

  2. En la barra de herramientas de la consola de Google Cloud, seleccione su proyecto de Google Cloud. Para las configuraciones de App Hub , seleccione el proyecto host de App Hub o el proyecto de administración de la carpeta habilitada para la aplicación.
  3. En el elemento Métrica , expanda el menú Seleccionar una métrica , ingrese VM Instance en la barra de filtro y luego use los submenús para seleccionar un tipo de recurso y una métrica específicos:
    1. En el menú Recursos activos , seleccione Instancia de VM .
    2. En el menú Categorías de métricas activas , seleccione Instancia .
    3. En el menú Métricas activas , seleccione Estado de rendimiento del disco .
    4. Haga clic en Aplicar .
    El nombre completo de esta métrica es compute.googleapis.com/instance/disk/performance_status .
  4. Configure cómo se ven los datos.
    Deshabilitar la agregación. Asegúrese de que en el elemento Agregación , el primer menú esté configurado en Sin agregar y el segundo menú esté configurado en Ninguno .
    Para ver el estado de un disco específico, filtre por device_name .

    Para obtener más información sobre la configuración de un gráfico, consulte Seleccionar métricas al utilizar el Explorador de métricas.

MQL

  1. Abra el editor de consultas: siga los pasos en Escribir consultas MQL .

  2. Ingrese su consulta en el editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingrese la siguiente consulta:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Reemplace DISK_NAME con el nombre del disco, por ejemplo, disk-1 .

PromQL

  1. Abra el editor de consultas: siga los pasos en Escribir consultas PromQL .

  2. Ingrese su consulta en el editor de consultas. Por ejemplo, para ver el estado de rendimiento de un disco específico, ingrese la siguiente consulta:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Reemplace DISK_NAME con el nombre del disco, por ejemplo, disk-1 .

Si ve los resultados en un gráfico, hay 3 líneas para cada disco, una para cada estado posible. De manera similar, si ve el resultado de la consulta en una tabla, la tabla tiene 3 filas para cada disco.

Si creó la consulta con PromQL o MQL, cada fila o línea tendrá un valor de 1 o 0 . Para consultas creadas con los menús, los valores de serán 100% o 0 .

El estado actual del disco está representado por la fila o línea cuyo valor es 100% o 1 .

Por ejemplo, la siguiente captura de pantalla muestra el gráfico de un disco denominado a-test-VM , cuyo estado es Healthy :

captura de pantalla que muestra el gráfico donde el estado del disco es Saludable

Si ve los resultados de la consulta como una tabla, la siguiente tabla es un ejemplo de los resultados de un disco Healthy :

estado_rendimiento valor
Healthy 1
Degraded 0
Severely Degraded 0

La siguiente captura de pantalla muestra el gráfico de un disco llamado replica-23509 cuyo estado es Degradado : captura de pantalla que muestra el gráfico donde el estado del disco es Degradado

Para obtener información sobre lo que significa cada estado de rendimiento, consulte Comprender cada estado . Después de crear el gráfico, puede guardarlo en un panel para usarlo en el futuro .

Resultados fraccionarios

Si su consulta incluye resultados fraccionarios como los de la siguiente tabla, normalmente se debe a que el período de visualización seleccionado fue largo. Como resultado, Cloud Monitoring agregó los datos a lo largo del tiempo. Un valor del 77% para el estado Healthy significa que el estado del disco fue Healthy durante el 77 % del período de visualización seleccionado.

estado_rendimiento valor
Healthy 77%
Degraded 23%
Severely Degraded 0

Para obtener una vista más granular del estado de un disco, utilice un período de visualización de unas pocas horas o una cierta cantidad de minutos.

Entender cada estado

Esta sección analiza lo que significa cada estado y cuándo es posible que deba tomar medidas adicionales.

Healthy

El estado Healthy indica que, desde la perspectiva de Google, el disco funciona normalmente.

Si un disco Healthy tiene problemas de rendimiento, no se comunique con el soporte. En su lugar, solucione los problemas del disco utilizando algunas de las siguientes sugerencias:

  • Revise las métricas de rendimiento del disco, como la latencia y la profundidad de la cola.
  • Verifique los registros y las métricas de su carga de trabajo para detectar anomalías y cuellos de botella.
  • Si está utilizando un disco persistente, asegúrese de que la capacidad aprovisionada pueda satisfacer las necesidades de rendimiento del disco. Si utiliza volúmenes Hyperdisk o Extreme Persistent Disk, verifique que haya aprovisionado suficientes IOPS y rendimiento.
  • Asegúrese de haber seguido las pautas para optimizar el disco. Para obtener más información, consulte Optimizar hiperdisco y Optimizar disco persistente .

Degraded

Por lo general , no es necesario que se comunique con el soporte técnico si el estado de su disco es Degraded . Un Degraded status generalmente se debe al mantenimiento interno normal de la infraestructura de Compute Engine.

Es posible que no notes ningún impacto en el rendimiento del disco mientras su estado sea Degraded . Si el problema de rendimiento y el estado Degraded se correlacionan en el tiempo, es posible que el problema de rendimiento aún no esté relacionado con el estado Degraded .

En el improbable caso de que un problema de rendimiento se deba al estado Degraded , el impacto suele ser temporal. El estado del disco debería volver a ser Healthy en unos minutos.

Puede ignorar con seguridad el estado Degraded si no hay problemas de rendimiento con el disco.

Qué hacer si hay un problema de rendimiento

Si el estado de rendimiento de su disco es Degraded y observa un problema de rendimiento, siga estos pasos:

  1. Consulte el panel de PSH para ver si hay algún incidente que afecte al disco. Si hay un incidente, no se comunique con el soporte, ya que Google está al tanto y está trabajando para resolver el problema.
  2. Si no hay problemas conocidos, espere al menos 5 minutos para que el problema de rendimiento se resuelva por sí solo.
  3. Si después de 5 minutos, el problema de rendimiento no se resuelve y el estado sigue siendo Degraded , asegúrese de que el problema de rendimiento no se deba a que el disco no esté suficientemente optimizado. Por ejemplo, verifique la latencia del disco y la profundidad de la cola. Es posible que el problema de rendimiento y el estado Degraded no estén relacionados y sean solo una coincidencia. Para hacerlo, revise las métricas del disco y las pautas de optimización del rendimiento .

  4. Si los problemas de rendimiento continúan y se cumplen todas las condiciones siguientes, puede comunicarse con el soporte para obtener ayuda:

    • El estado del disco ha sido Degraded durante más de 5 minutos.
    • Está razonablemente seguro de que no se trata de un problema de carga de trabajo porque ha optimizado el disco y ha verificado que no hay otros problemas, como un cuello de botella o una aplicación sobrecargada.
    • No hay alertas en el panel de PSH

Google no recomienda crear una alerta para el estado Degraded directamente, sino más bien alertar sobre el estado de la aplicación de nivel superior y utilizar esta métrica para depurar problemas.

Severely Degraded

Un disco cuyo estado de rendimiento es Severely Degraded está experimentando un problema de rendimiento. Este problema puede deberse a un incidente o error y es posible que ya esté visible en el panel de PSH o en elGoogle Cloud Panel de estado del servicio .

que hacer

Si el estado de rendimiento de su disco es Severely Degraded , siga estos pasos:

  1. Consulta el panel de control de PSH y la información general. Google Cloud panel de estado para un incidente que afecte al disco. Si hay un incidente, no se comunique con el soporte, ya que Google está al tanto y está trabajando para resolver el problema.
  2. Si no hay problemas conocidos en ambos paneles, comuníquese con el soporte para obtener ayuda.

Árbol de decisión

El siguiente diagrama ilustra cómo proceder si un disco tiene un problema de rendimiento y resume la información de las secciones anteriores.

Diagrama de flujo que describe los pasos a seguir para interpretar la métrica del estado de rendimiento del disco.

Como se muestra en el diagrama de flujo, solo debe comunicarse con el soporte si no hay alertas conocidas en los paneles de PSH y del servicio en la nube y el estado del disco es Severely Degraded . Si el disco está Degraded , comuníquese con el soporte técnico solo si se cumplen todas las condiciones siguientes:

  • El disco ha estado Degraded por más de 5 minutos.
  • Ha descartado un error de carga de trabajo o una mala configuración (como problemas de red)
  • No se pueden realizar optimizaciones adicionales a nivel de aplicación, carga de trabajo o disco.
  • Has revisado todas las métricas del disco.
  • Ha examinado los registros de su carga de trabajo y de su máquina virtual (VM).

¿Qué sigue?