インシデントは、アラート ポリシーの条件を満たしたタイミングの記録です。通常、アラート ポリシーの条件を満たすと、Cloud Monitoring はインシデントを開き、通知を送信します。ただし、次のような状況ではインシデントは作成されません。
- ポリシーがスヌーズされているか、無効になっている。
- アラート ポリシーまたはインシデントの数が、既存のアラートの上限を超えている。
Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページでは、インシデントを管理し、障害のトラブルシューティングに役立つインシデント情報をレポートできます。たとえば、[インシデントの詳細] ページには、SQL クエリ結果の概要と関連するインシデントのリストが表示されます。
このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、ログエントリのグループのデータに対して実行された SQL クエリの結果を評価する SQL ベースのアラート ポリシーのインシデントを管理する方法についても説明します。
この機能は Google Cloud プロジェクトでのみサポートされています。App Hub 構成の場合は、App Hub ホスト プロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。
始める前に
Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。
-
Google Cloud コンソールを使用してインシデントを表示する:
-
Cloud コンソールのインシデントのモニタリング閲覧者(
roles/monitoring.cloudConsoleIncidentViewer
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング閲覧者(
-
Google Cloud コンソールを使用してインシデントを管理する:
-
Cloud コンソールのインシデントのモニタリング編集者(
roles/monitoring.cloudConsoleIncidentEditor
) -
Stackdriver アカウント閲覧者(
roles/stackdriver.accounts.viewer
)
-
Cloud コンソールのインシデントのモニタリング編集者(
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。
インシデントを見つける
Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。
-
Google Cloud コンソールで、[notifications アラート] ページに移動します。
このページを検索バーで検索する場合は、小見出しが「Monitoring」の結果を選択します。
Google Cloud コンソールのツールバーで、 Google Cloud プロジェクトを選択します。App Hub 構成の場合は、App Hub ホスト プロジェクトまたはアプリ管理用フォルダの管理プロジェクトを選択します。
[アラート] ページには、アラート ポリシー、スヌーズ、インシデントに関する情報が表示されます。
- [概要] ペインには、対応待ちのインシデントの数が一覧表示されます。
- [インシデント] ペインには、最新の対応待ちインシデントが表示されます。クローズしたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
特定のインシデントの詳細を表示するには、リストのインシデントを選択します。
[インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。
古いインシデントを見つける
[アラート] ページの [インシデント] ペインに、最新のインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。
[インシデント] テーブルで、arrow_back_ios [次] または arrow_forward_ios [それ以前] をクリックすることでページを切替えてエントリを確認する。
[See all incidents] をクリックして [インシデント] ページに移動する。[インシデント] ページでは、次の操作をすべて行えます。
- クローズしたインシデントの表示: テーブル内のすべてのインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラート ポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で more_vert(その他のオプション)をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。
インシデントのフィルタ
フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [Incidents] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。
Incidents テーブルのフィルタを追加するには、次のようにします。
[インシデント] ページで filter_list [フィルタ] をクリックし、つづいてフィルタ プロパティを選択します。フィルタ プロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラート ポリシーの名前
- インシデントの開始日、終了日
サブメニューの値を選択するか、フィルタバーに値を入力します。
インシデントを調査する
[インシデントの詳細] ページには、インシデントの原因特定に役立つ情報が表示されます。
クエリ結果を調べる
[Total slot time consumed per day] ペインには、過去 24 時間に予約済みの BigQuery スロットでアラート ポリシーの SQL クエリの実行に費やされた時間が表示されます。
[SQL query results] ペインには、ログ分析がアラート ポリシーの条件から SQL クエリを実行したクエリ結果の概要のリストが表示されます。デフォルトでは、アラート ポリシーの条件に一致するクエリのみが表示されるようにリストがフィルタされます。
- ログ分析がクエリを実行した特定の時点のクエリとクエリ結果のテーブルを表示するには、[クエリ実行時刻] 列の値をクリックします。
- アラート ポリシーの条件に一致するクエリ結果のみを表示するか、ログ分析がアラート ポリシーから実行したすべてのクエリを表示するかを切り替えるには、[Show only queries matching alert conditions] をクリックします。
補足情報を表示する
[ドキュメント] セクションには、アラート ポリシーの作成時に指定した通知のドキュメント テンプレートが表示されます。この情報には、アラート ポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。
アラート ポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。
関連するインシデントを調べる
アプリケーション全体の根本的な問題を特定するには、他のアラート ポリシーの条件に関連するインシデントを調べます。
[Related Incidents] セクションには、アラート ポリシーの条件が満たされたときに作成された他のインシデントのリストが表示されます。インシデントの管理
インシデントは次のいずれかの状態になります。
error 対応待ち: SQL ベースのアラート ポリシーの条件が満たされましたが、インシデントは対応待ちです。同じ条件が再度満たされても、インシデントがすでに開いている場合、新しいインシデントは開きません。
warning 確認済み: インシデントが対応待ちの状態であり、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
check_circle 完了済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。
インシデントを確認する
インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。
インシデントに確認済みのマークを付けるには、次の操作を行います。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- more_vert(その他のオプション)をクリックし、[確認] を選択します。
- インシデントの詳細ページを開いて、[インシデントを確認する] をクリックします。
アラート ポリシーをスヌーズする
特定の期間に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラート ポリシーをスヌーズします。アラート ポリシーをスヌーズすると、アラート ポリシーに関連するインシデントは対応待ちのままになりますが、それ以上の通知は発生しません。インシデントは、アラート ポリシーの自動クローズ期間に基づいてクローズされます。
表示しているインシデンスのスヌーズを作成するには、次の操作を行います。
[インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。
[インシデント] ページから、スヌーズするインシデントを見つけて more_vert(その他のオプション)をクリックし、[スヌーズ] を選択して、アラート ポリシーをスヌーズすることもできます。サービス停止中はアラート ポリシーをスヌーズして、トラブルシューティング プロセス中に通知が届かないようにすることができます。
インシデントをクローズする
Monitoring によりインシデントをクローズする、またはユーザーがインシデントをクローズすることができます。
アラート ポリシーの自動終了期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズの最短期間は 30 分です。
自動クローズ期間には、インシデントの原因が再発しない状態で経過する必要がある時間を指定します。このため、インシデントが対応待ちで、その原因が再発した場合、インシデントは自動クローズ期間よりも長くオープン状態になることがあります。
インシデントをクローズする手順は次のとおりです。
- [アラート] ページの [インシデント] ペインで [See all incidents] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- more_vert(もっと見る)をクリックし、[インシデントを閉じる] を選択します。
- そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。
メッセージ「Unable to close incident
」が表示された場合は、数分後にもう一度お試しください。インシデントの原因となった条件はアラート システムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。
データの保持と上限
インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。
次のステップ
- Cloud Logging API やコマンドラインを使用してアラート ポリシーを作成、管理するには、API によるアラート ポリシーの管理をご覧ください。