共同インシデント管理プロセスを構築する

Last reviewed 2023-08-08 UTC

Google Cloud アーキテクチャ フレームワークのこのドキュメントでは、サービスを管理し、インシデントに対応するプロセスを定義するためのベスト プラクティスについて説明します。インシデントは、すべてのサービスで発生するため、効率的に対応してこの問題を軽減するには、詳細が文書化されたプロセスが必要です。

インシデント管理の概要

適切に設計されたシステムでも、いつかは SLO を下回ることになります。SLO がない場合、お客様は過去の経験から許容可能なサービスレベルを大まかに定義します。お客様は、SLA の内容に関係なく、テクニカル サポートや同様のグループにエスカレーションされます。

お客様に適切なサービスを提供するため、インシデント管理計画を確立し定期的にテストします。その計画は、1 ページの 10 項目のチェックリストのような短いものでかまいません。このプロセスによって、チームは検出時間(TTD)と軽減時間(TTM)を短縮できます。

TTR ではなく TTM が推奨されます。TTR の R は、修復または復元を意味し、軽減策ではなく完全修正を意味するからです。TTM は、停止による顧客への影響を迅速に終了させる迅速な軽減を重視し、問題を完全に解決するために通常より長いプロセスを開始します。

優れた操作性を備えたシステムを設計すれば、故障間隔時間(TBF)が長くなります。つまり、優れたインシデント管理などの信頼性を確保するための運用原則は、障害の発生頻度を低くすることを目標とします。

信頼性の高いサービスを実行するには、インシデント管理プロセスに次のベスト プラクティスを適用します。

明確なサービス オーナーを割り当てる

すべてのサービスとそれらの重要な依存関係には、SLO を遵守する明確なオーナーが必要です。再編成やチームの人員削減が行われる場合、エンジニアリング リードは、必要に応じてドキュメントやトレーニングとともに、所有権を新しいチームに明示的に引き継ぐ必要があります。サービスのオーナーが他のチームからも簡単にわかるようにする必要があります。

適切に調整されたアラートによって検出時間(TTD)を短縮する

TTD を短縮する前に、インフラストラクチャとアプリケーションへのオブザーバビリティ組み込みで最適化案を審査して実施し、信頼性の目標と定義します。たとえば、アプリケーションの問題と基盤となるクラウドの問題を明確に区別します。

適切に調整された一連の SLI は、アラートの過負荷を発生させることなく、適切なタイミングでチームに通知します。詳細については、効率的なアラートを作成するSLI 指標の調整: CRE ライフレッスンを調整するをご覧ください。

インシデント管理計画とトレーニングによって軽減時間(TTM)を短縮する。

TTM を短縮するには、文書化され、十分に訓練されたインシデント管理計画を定義します。環境の変更点に関するデータは、すぐに入手できるようにしてください。迅速に適用して TTM を最小化できる一般的な緩和策をチームに周知してください。これらの緩和策には、ドレイン、変更のロールバック、リソースの規模拡大、サービス品質を低下させることが含まれます。

アーキテクチャ フレームワークの他の部分で説明されているように、信頼性の高い運用プロセスとツールを作成して、変更の安全性と迅速なロールバックをサポートします。

ダッシュボードのレイアウトとコンテンツを設計して TTM を最小化する

サービス ダッシュボードのレイアウトとナビゲーションを整理して、サービスとそのすべての重要な依存関係が実行されているかどうかをオペレータが 1~2 分で判断できるようにします。問題の潜在的な原因をすばやく特定するには、ダッシュボード上のすべてのグラフをスキャンして、アラートの時点で大幅に変化するグラフをすばやく探し出すことができるようにする必要があります。

トラブルシューティングに役立つよう、以下に例示するようなグラフがダッシュボードに表示されることもあります。インシデント対応者は、単一のビューから以下を一目で確認できる必要があります。

  • サービスレベル指標(成功したリクエストを有効なリクエストの合計数で割ったなど)
  • 構成やバイナリのロールアウト
  • システムへの 1 秒あたりのリクエスト数
  • システムからの 1 秒あたりのエラー レスポンス数
  • システムからその依存関係への 1 秒あたりのリクエスト数
  • 依存関係からシステムへの 1 秒あたりのエラー レスポンス数

トラブルシューティングに役立つその他の一般的なグラフには、レイテンシ、飽和度、リクエスト サイズ、レスポンス サイズ、クエリ費用、スレッドプール使用率、Java 仮想マシン(JVM)の指標(該当する場合)があります。飽和度とは、割り当てやシステムメモリ サイズなど、一定の上限による完全性のことです。スレッドプールの使用率は、プールの枯渇による回帰を探します。

いくつかの停止シナリオに対してこれらのグラフの配置をテストし、最も重要なグラフが上部に近くなり、グラフの順序が標準の診断ワークフローと一致するようにします。また、機械学習と統計的異常検出を適用して、これらのグラフの適切なサブセットを表示することもできます。

既知の停止シナリオの診断手順と軽減策を文書化

ハンドブックを作成し、アラート通知にハンドブックへのリンクを追加します。アラート通知からこうしたドキュメントにアクセスできると、オペレーターがトラブルシューティングと問題の軽減に必要な情報をすばやく入手できます。

非難なしの事後調査でサービス停止から学び、再発を防止

非難なしの事後調査の文化とインシデントのレビュー プロセスを確立します。非難なしとは、チームが非難することなく、問題点を客観的に評価して文書化することを意味します。

失敗は学習の機会とみなされ、批判の対象にはなりません。システムの復元力を高めて、人為的ミスから迅速に回復できるようにするか、さらには人為的ミスを検出して防止できるようにします。 それぞれの事後分析からできるだけ多くの学習を抽出し、事後分析のアクション アイテムに注意して対処し、サービス停止の回数を減らして TBF を増加させます。

インシデント管理計画の例

本番環境の問題が、アラートやページなどから検出された、または自分にエスカレーションされました。

  • 他の誰かに委任する必要がありますか?
    • 自分たちで解決できない場合は、「はい」。
  • この問題はプライバシーやセキュリティの侵害ですか?
    • 「はい」の場合、プライバシー チームまたはセキュリティ チームに委任します。
  • この問題は緊急事態ですか、あるいは SLO が達成できなくなる恐れがありますか?
    • 疑わしい場合は、緊急事態として処理します。
  • 人員を増やす必要がありますか?
    • お客様の X% 以上に影響が及ぶ場合、あるいは解決に Y 分以上かかる場合は、「はい」。疑わしい場合は、より多くの人員で取り組みます(特に営業時間中)。
  • メインの通信チャネル(IRC、Hangouts Chat、Slack など)を定義します。
  • 次のような事前定義ロールを委任します。
    • 全体的な調整を担当するインシデント コマンダー
    • 内部および外部のコミュニケーションを担当するコミュニケーション リーダー
    • 問題の軽減を担当するオペレーション リーダー
  • インシデントがいつ終了するかを定義します。この決断には、サポート担当者や他の同様のチームからの承認が必要になります。
  • 非難なしの事後調査に協力します。
  • 事後調査インシデント レビュー会議に参加して話し合い、タスクの割り当てを行います。

推奨事項

アーキテクチャ フレームワークのガイダンスを実際の環境に適用するには、次の推奨事項に従ってください。

次のステップ