サービスの中断は避けられませんが、何が起こっているかを評価し、関係者に情報を伝え、ビジネスへの影響を最小限に抑えるためのアクションを実行するには、透明性の高い早期のコミュニケーションが不可欠です。
信頼性の高いクラウド アプリケーションの運用は、Google Cloud とアプリケーション デベロッパーの共有責任です。サービスの中断が発生した場合、Google Cloud はインシデントを迅速に伝達し、影響の評価を提供することを目的としています。通知の受信方法、発生したインシデントへの対応方法、アプリケーションへの影響の管理方法を評価する必要があります。
このプロセスには、Personalized Service Health が役立ちます。さまざまな方法で統合して、新しいインシデントを把握し、アプリケーションへの影響を評価し、 Google Cloudから更新を受け取ることができます。このドキュメントでは、Google Cloudからサービス停止のシグナルを受信する方法の概要と、それらと統合するための推奨事項について説明します。
統合先を決定する
Personalized Service Health は、プロジェクトまたは組織全体で使用されている Google Cloud プロダクトのパーソナライズされたビューを提供します。Personalized Service Health と統合すると、最も広範囲でさまざまな統合オプションを利用できるため、統合することをおすすめします。
統合ポイント | ユースケース | メリット | 依存関係 |
コンソール ダッシュボード(Personalized Service Health) | アクティブなサービス停止を表示する | プロジェクトに合わせてカスタマイズされ、デフォルトで利用可能 | Identity and Access Management(IAM) Google Cloud コンソール |
アラート(Personalized Service Health) | パーソナル通知 | プロジェクトに合わせてカスタマイズされ、便利でプロアクティブ | IAM Cloud Logging Cloud Monitoring |
API(パーソナライズされたサービス ヘルス) | 別のシステムまたはツールと統合する | プロジェクトまたは組織に合わせてカスタマイズする | IAM |
Personalized Service Health とのやり取り方法を選択する
Personalized Service Health は、目的のオペレーション、モニタリング、インシデント対応モデルのコンテキストで検討する必要があります。インシデント中やインシデント発生前にチームがシグナルをどのように使用しているかを評価することで、Personalized Service Health の使用方法を決定できます。
次の表は、Personalized Service Health の設定方法に応じて、Personalized Service Health を操作する方法を示しています。
組織でのシナリオの例 | Personalized Service Health との統合 | 統合する可能性のあるツールの例 |
複数のアプリケーションのオンコールを担当しているデベロッパー | 個々のプロジェクトに関するアラート
コンソール ダッシュボード |
Google Cloud Observability、PagerDuty |
組織全体でインシデント対応を一元化する | OrganizationEvents API(v1、v1beta)を使用した既存のシステムとの API 統合 | PagerDuty、カスタム ダッシュボード |
クラウド リソースとオペレーションを管理するための内部プラットフォーム | Service Health API 個々のプロジェクトのアラート Service Health API と内部デベロッパー プラットフォームの統合 |
Backstage、Terraform |
プログラムで構成および管理される多数のプロジェクト(例: 1,000 個以上) | Service Health API API ベースの自動通知 |
Backstage、Terraform、PagerDuty |
インシデント発生時に Personalized Service Health を使用する
Personalized Service Health と統合してアラート通知の受信を開始すると、Personalized Service Health は、影響の管理に役立つ Google Cloud中断に関する情報を提供します。
インシデントを検出して範囲を特定する
この段階で尋ねるべき質問には、次のようなものがあります。
- これは本当に問題ですか?
- 影響を検証できるか
- どのような症状ですか?
- 影響を受けるユーザー、プロダクト、ビジネス部門は?どの地域ですか?
Personalized Service Health は、問題がプロジェクトと Google のどちらに起因するかを把握するのに役立ちます。これにより、適切なインシデント対応を実施できます。イベント情報を検索して表示し、プロジェクトに影響するイベント、影響を受けるプロダクト、ロケーションをモニタリングできます。
手順は次のとおりです。
- アラートが設定されている場合は、アラートを確認します。
- このアラートがトリガーされた原因は何ですか?
- これらのアラートは、他の製品固有のアラートとどのように関連していますか?
- プロジェクトまたは組織の Service Health ダッシュボードにアクセスします。イベント、影響を受けるプロダクト、場所を一目で確認し、次の質問に答えることができます。
- 影響を受けるプロジェクト
- プロジェクトが依存しているどのプロダクトが影響を受けるか。
- イベントは、これらのロケーション内の特定のリソースに影響していますか?
- イベントを確認し、その範囲、影響、プロジェクトとの関連性を把握します。
- 発生している問題に関連していると思われるイベントを特定します。
- イベントの確認手順、緩和策(利用可能な場合)、解決までの予想時間を確認します。
Personalized Service Health を使用すると、プロジェクトや組織に影響するインシデントの現在の状態と影響を確認できるため、効率的に管理して対応できます。たとえば、優先度の最も高いインシデントを正確に特定することで、効果的に優先順位付けできます。
インシデントを軽減、解決、またはエスカレーションする
この段階で尋ねるべき質問には、次のようなものがあります。
- このインシデントを回避するにはどうすればよいですか?
- 直接修正できますか?
- 今すぐフェイルオーバーを開始すべきか、それともしばらく待つべきか。
- 修正を依頼するには、誰に連絡すればよいですか?
Personalized Service Health を使用すると、インシデントがプロジェクトやリソースに与える影響を把握し、利用可能な回避策について通知を受け取り、解決までの推定時間に関する最新情報を受け取ることができます。
インシデント解決に向けた進捗状況をモニタリングする
Service Health ダッシュボードのイベントの概要には、軽減に必要な症状や回避策などの重要な情報が示され、状態が変化したタイミングが表示されます。これらの詳細情報により、次のことが可能になります。
- 状況の変化に応じて、潜在的な影響の概要をモニタリングします。
- 新しい展開や、次回の連絡または更新の予定時期について最新情報を入手します。
- 症状が公開された日時を確認する。
- 回避策が特定された時期を確認します。
- 状態が [解決済み] に変わった日時を確認します。
進行状況をモニタリングしながら、次の操作を行うことができます。
- 回避策がある場合は確認します。
- プロジェクトまたは組織に適したインシデント対応を実施します。
- イベントが軽減または解決されるまで、モニタリングを続けます。
サポートに連絡すべき状況
Google は、Service Health ダッシュボードに表示されるイベントを認識しています。イベントに対する Google の対応を確認するには、イベントを選択して詳細を表示します。
ダッシュボードのイベントに問題が表示されていない場合は、サポートにお問い合わせください。
Personalized Service Health を他のインシデント情報源と併用する
会社のセットアップに関係なく、インシデントの影響を評価する際の追加のシグナルとして Personalized Service Health を使用します。インシデント情報の複数のソースを確認して、データと証拠に基づいて次のステップを決定できるようにします。
インシデント情報の複数のソースを使用する理由には、次のようなものがあります。
- Google Cloud プロダクトでインシデントが発生していても、プロジェクトが別のロケーションにあるため影響を受けないことがあります。
- サービング システムに別々のゾーンに 2 つの完全なレプリカがあり、1 つのゾーンで重要な Google Cloud プロダクトが失敗した場合、Personalized Service Health はその障害を通知します。ただし、実際にはユーザーに影響が及んでいない可能性があり、直ちに対処する必要がない場合もあります。
- プロジェクトがロケーション内の多くの Google Cloud プロダクトに依存している場合、Personalized Service Health は次のことを認識できません。
- プロジェクトで、すべての商品が機能している必要がある場合。
- 1 つのプロダクトが失敗した場合でもプロジェクトが継続して動作するかどうか。
- 1 つ以上のプロダクトが失敗した場合に、アプリケーション全体が影響を受ける場合。
- Personalized Service Health 自体が機能低下または障害を起こすこともあります。確認するには、ステータスを確認します。
Personalized Service Health からのシグナルは、設定に応じて適切に解釈する必要があります。