En este documento, se explica cómo el equipo de asistencia al cliente y el equipo de ingeniería del producto trabajan en conjunto para resolver un incidente y proporcionarte actualizaciones. Google Cloud
En el siguiente diagrama, se muestran las responsabilidades de los equipos de ingeniería y asistencia de productos.
En las siguientes secciones, se explican estas responsabilidades.
Detección
Google Cloud utiliza la supervisión interna y sintética para detectar incidentes. Para obtener más información, consulta el Capítulo 6 del ingeniería de confiabilidad de sitios Engineering.
Respuesta inicial
Cuando se detecta un incidente, el equipo de Google Cloud Service Health administra las comunicaciones con los clientes. La notificación inicial de un incidente suele ser poco detallada y, con frecuencia, solo menciona el producto en cuestión. Esto se debe a que priorizamos brindar una notificación rápida antes que especificar los detalles. Se pueden proporcionar detalles en las actualizaciones posteriores.
Para proporcionarte la mayor cantidad de información posible sin abrumarte con problemas que no te afectan, se utilizan diferentes canales de comunicación según el alcance y la gravedad de un problema:
Investigar
Los equipos de ingeniería de productos son responsables de investigar la causa raíz de los incidentes. Los ingenieros de confiabilidad de sitios suelen realizar la administración de incidentes, pero otros ingenieros o los ingenieros de software pueden realizar la administración, según la situación y el producto. Para obtener más información, consulta el Capítulo 12 del libro Site Reliability Engineering.
Mitigación y solución de problemas
Un problema se considera corregido solo cuando se realizan cambios que permiten a Google estar seguro de que tales cambios acabarán con el impacto indefinidamente. Por ejemplo, la corrección podría ser revertir un cambio que provocó un incidente.
Mientras se produce un incidente, Service Health y el equipo de productos intentan mitigar el problema. La mitigación es cuando se puede reducir el impacto o el alcance de un problema, por ejemplo, si se proporcionan temporalmente recursos adicionales a un producto que sufre una sobrecarga.
Si no se encuentra una forma de mitigar el problema, el equipo de Service Health buscará y comunicará soluciones alternativas siempre que sea posible. Las soluciones alternativas son pasos que puedes seguir para resolver la necesidad subyacente a pesar del incidente. Una solución alternativa podría ser utilizar diferentes configuraciones para una llamada a la API a fin de evitar una ruta de código problemática.
Seguimiento
Mientras un incidente está en curso, el equipo de Service Health proporciona actualizaciones periódicas. Por lo general, las actualizaciones proporcionan lo siguiente:
Más información sobre el incidente, como mensajes de error, zonas o regiones afectadas, qué características están afectadas o porcentajes de impacto.
Progreso hacia la mitigación, incluidas las soluciones alternativas.
Cronogramas para la comunicación, adaptados al incidente.
Cambios en el estado, como cuando se corrige un incidente.
Retrospectiva
Todos los incidentes se someten a una retrospectiva interna para comprenderlos por completo y detectar las mejoras de confiabilidad que Google puede hacer. Luego, se hace un seguimiento de estas mejoras y se las implementa. Para obtener más información, consulta el Capítulo 15 del libro Site Reliability Engineering.
Informe de incidentes
Cuando los incidentes tienen un impacto muy amplio y grave, Google proporciona informes de incidentes que describen los síntomas, el impacto, la causa raíz, la corrección y la prevención futura de incidentes. Al igual que con las retrospectivas, prestamos especial atención a las medidas que tomamos para aprender del problema y mejorar la confiabilidad. El objetivo de Google cuando escribe y publica retrospectivas es ser transparente y demostrar nuestro compromiso con la creación de productos estables para nuestros clientes.