インシデントとは、アラート ポリシーの条件が満たされたタイミングを記録したものです。通常、アラート ポリシーの条件に一致するログを受信すると、Cloud Monitoring はインシデントを開いて通知を送信します。ただし、次のような状況ではインシデントは作成されません。
- ポリシーがスヌーズされているか、無効になっている。
- アラート ポリシーまたはインシデントの数が、既存のアラートの上限を超えている。
- 別のログエントリにより、開かれているインシデントと同じ条件が満たされた。この場合、Monitoring は同じインシデントに関する別の通知のみを送信します。
Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理できるほか、障害のトラブルシューティングに役立つインシデント情報が報告されます。たとえば、[インシデントの詳細] ページには、ログベースのアラート ポリシーのクエリに一致するログエントリのリストが表示されます。関連するインシデントへのリンクも確認できます。
このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、Cloud Logging の個々のログに保存されているログエントリ データを評価するログベースのアラート ポリシーのインシデントを管理する方法についても説明します。
この機能は Google Cloud プロジェクトでのみサポートされています。App Hub 構成の場合は、App Hub ホスト プロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。
始める前に
Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。
-
Google Cloud コンソールを使用してインシデントを表示する:
-
Cloud コンソールのインシデントのモニタリング閲覧者(
roles/monitoring.cloudConsoleIncidentViewer
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング閲覧者(
-
Google Cloud コンソールを使用してインシデントを管理する:
-
Cloud コンソールのインシデントのモニタリング編集者(
roles/monitoring.cloudConsoleIncidentEditor
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング編集者(
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。
インシデントを見つける
Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。
-
Google Cloud コンソールで、[notifications アラート] ページに移動します。
このページを検索バーで検索する場合は、小見出しが「Monitoring」の結果を選択します。
Google Cloud コンソールのツールバーで、 Google Cloud プロジェクトを選択します。App Hub 構成の場合は、App Hub ホスト プロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。
[アラート] ページには、アラート ポリシー、スヌーズ、インシデントに関する情報が表示されます。
- [概要] ペインには、開かれているインシデントの数が一覧表示されます。
- [インシデント] ペインには、最新の開かれているインシデントが表示されます。クローズされたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
特定のインシデントの詳細を表示するには、リスト内のインシデントを選択します。
[インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。
古いインシデントを見つける
[アラート] ページの [インシデント] ペインには、最新の開かれているインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。
[インシデント] テーブルで [arrow_back_ios 次] または [arrow_forward_ios それ以前] をクリックし、ページを切り替えてエントリを確認します。
[すべてのインシデントを表示] をクリックして [インシデント] ページに移動します。[インシデント] ページでは、次の操作をすべて行えます。
- 対応済みのインシデントを表示する: テーブル内のすべてのインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で more_vert(その他のオプション)をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。
インシデントをフィルタする
フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。
インシデント テーブルにフィルタを追加する手順は次のとおりです。
[インシデント] ページで [filter_list テーブルをフィルタリング] をクリックし、フィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラート ポリシーの名前
- インシデントの開始日、終了日
サブメニューの値を選択するか、フィルタバーに値を入力します。
インシデントを調査する
[インシデントの詳細] ページには、インシデントの原因を特定する際に役立つ情報が表示されます。
ログエントリを調べる
ログエントリを調べて、調査に関連するパターンや繰り返し発生する問題を探します。[ログ] ペインには、ログベースのアラート ポリシーのクエリに一致するログエントリが表示されます。
- ログ エクスプローラでログエントリを表示するには、[ログ エクスプローラで表示] をクリックし、スコーピング プロジェクトを選択します。
- Metrics Explorer で [ログ] パネルを表示するには、[query_stats データを探索] をクリックします。
補足情報を表示する
[ラベル] セクションには、インシデントの原因となったログエントリに含まれるモニタリング対象リソースのラベルと値が表示されます。この情報は、インシデントの原因となった具体的なモニタリング対象リソースの特定に役立ちます。詳細については、アラートにラベルでアノテーションを付けるをご覧ください。
[ドキュメント] セクションには、アラート ポリシーの作成時に指定した通知のドキュメント テンプレートが表示されます。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。
アラート ポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。
関連するインシデントを調べる
アプリケーション全体の根本的な問題を特定するには、他のアラート ポリシーの条件に関連するインシデントを調べます。
[関連インシデント] セクションには、次のいずれかの条件に一致するインシデントのリストが表示されます。- このインシデントは、同じアラート ポリシーの条件が満たされたときに作成された。
- このインシデントは、[インシデントの詳細] ページに表示されるインシデントとラベルを共有している。
インシデントを管理する
インシデントは次のいずれかの状態になります。
error オープン: ログベースのアラート ポリシーの条件が満たされ、インシデントがまだ開かれています。同じ条件が再度満たされても、インシデントがすでに開かれている場合、新しいインシデントは開かれません。
warning 確認済み: インシデントが開かれていて、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
check_circle クローズ済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。
インシデントを確認する
インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。
インシデントに確認済みのマークを付けるには、次の操作を行います。
- [アラート] ページの [インシデント] ペインで [すべてのインシデントを表示] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- more_vert(その他のオプション)をクリックし、[確認] を選択します。
- インシデントの詳細ページを開いて、[インシデントを確認する] をクリックします。
アラート ポリシーをスヌーズする
特定の期間中に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、そのアラート ポリシーに関連するインシデントは開かれたままになりますが、それ以上の通知は発生しません。インシデントは、アラート ポリシーの自動クローズ期間に基づいてクローズされます。
表示しているインシデントのスヌーズを作成するには、次の操作を行います。
[インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。
[インシデント] ページから、スヌーズするインシデントを見つけて more_vert(その他のオプション)をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービス停止中はアラート ポリシーをスヌーズして、トラブルシューティング プロセス中に通知が届かないようにすることができます。
インシデントをクローズする
Monitoring でインシデントをクローズすることも、ユーザーがインシデントをクローズすることもできます。
アラート ポリシーの自動クローズ期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズ期間は最短 30 分です。
自動クローズ期間には、インシデントの原因が再発しない状態で経過する必要がある時間を指定します。このため、インシデントが開かれている間にその原因が再発した場合、インシデントは自動クローズ期間よりも長く開かれたままになる可能性があります。
インシデントをクローズする手順は次のとおりです。
- [アラート] ページの [インシデント] ペインで [すべてのインシデントを表示] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- more_vert(もっと見る)をクリックし、[インシデントを閉じる] を選択します。
- そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。
メッセージ「Unable to close incident
」が表示された場合は、数分後にもう一度お試しください。インシデントの原因となった条件はアラート システムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。
データの保持と上限
インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。
次のステップ
- Cloud Logging API やコマンドラインを使用してアラート ポリシーを作成、管理するには、API によるアラート ポリシーの管理をご覧ください。