SQL ベースのアラートポリシーのインシデントを管理する

インシデントは、アラートポリシーの条件を満たしたタイミングの記録です。通常、アラートポリシーの条件を満たすと、Cloud Monitoring はインシデントを開き、通知を送信します。ただし、次のような状況ではインシデントは作成されません。

ポリシーがスヌーズされているか、無効になっている。
アラートポリシーまたはインシデントの数が、既存のアラートの上限を超えている。

Monitoring は、インシデントごとに [インシデントの詳細] ページを作成します。このページには、インシデントの管理や、障害のトラブルシューティングに役立つインシデント情報が表示されます。たとえば、[インシデントの詳細] ページには、SQL クエリ結果の概要と関連するインシデントのリストが表示されます。

このドキュメントでは、インシデントを検索する方法について説明します。また、[インシデントの詳細] ページを使用して、ログエントリのグループのデータに対して実行された SQL クエリの結果を評価する SQL ベースのアラートポリシーのインシデントを管理する方法についても説明します。

この機能は Google Cloud プロジェクトでのみサポートされています。App Hub の構成には、App Hub ホストプロジェクトまたは管理プロジェクトを選択します。

始める前に

Google Cloud コンソールを使用してインシデントを表示して管理するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールの付与を管理者に依頼してください。

Google Cloud コンソールを使用してインシデントを表示する:
- Cloud コンソールのインシデントのモニタリング閲覧者（roles/monitoring.cloudConsoleIncidentViewer）
- Stackdriver アカウント閲覧者（roles/stackdriver.accounts.viewer）
Google Cloud コンソールを使用してインシデントを管理する:
- Cloud コンソールのインシデントのモニタリング編集者（roles/monitoring.cloudConsoleIncidentEditor）
- Stackdriver アカウント閲覧者（roles/stackdriver.accounts.viewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Cloud Monitoring のロールの詳細については、Identity and Access Management を使用してアクセスを制御するをご覧ください。

インシデントを見つける

Google Cloud プロジェクトのインシデントのリストを表示する手順は次のとおりです。

Google Cloud コンソールで、[ アラート] ページに移動します。
[アラート] に移動

このページを検索バーで検索する場合は、小見出しが「Monitoring」の結果を選択します。
Google Cloud コンソールのツールバーで、 Google Cloud プロジェクトを選択します。App Hub の構成には、App Hub ホストプロジェクトまたは管理プロジェクトを選択します。

[アラート] ページには、アラートポリシー、スヌーズ、インシデントに関する情報が表示されます。
- [概要] ペインには、開かれているインシデントの数が一覧表示されます。
- [インシデント] ペインには、最新の開かれているインシデントが表示されます。クローズされたインシデントを含め、テーブル内の最新のインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
特定のインシデントの詳細を表示するには、リスト内のインシデントを選択します。

[インシデントの詳細] ページが開きます。[インシデントの詳細] ページの詳細については、このページのインシデントを調査するセクションをご覧ください。

古いインシデントを見つける

[アラート] ページの [インシデント] ペインには、最新の開かれているインシデントが表示されます。古いインシデントを見つけるには、次のいずれかを行います。

[インシデント] テーブルで [ 次] または [ それ以前] をクリックし、ページを切り替えてエントリを確認します。
[すべてのインシデントを表示] をクリックして [インシデント] ページに移動します。[インシデント] ページでは、次の操作をすべて行えます。
- 対応済みのインシデントを表示する: テーブル内のすべてのインシデントを一覧表示するには、[対応済みのインシデントを表示] をクリックします。
- インシデントをフィルタする: フィルタの追加については、インシデントをフィルタするをご覧ください。
- インシデントを確認またはクローズするか、アラートポリシーをスヌーズする。これらのオプションにアクセスするには、インシデントの行で（その他のオプション）をクリックし、メニューから項目を選択します。詳細については、インシデントを管理するをご覧ください。

インシデントをフィルタする

フィルタバーに値を入力すると、フィルタに一致するインシデントのみが [インシデント] テーブルに表示されます。複数のフィルタを追加すると、すべてのフィルタを満たすインシデントのみが表示されます。

インシデントテーブルにフィルタを追加する手順は次のとおりです。

[インシデント] ページで [ テーブルをフィルタリング] をクリックし、フィルタプロパティを選択します。フィルタプロパティには、次のすべての内容が含まれます。
- インシデントの状態
- アラートポリシーの名前
- インシデントの開始日、終了日
サブメニューの値を選択するか、フィルタバーに値を入力します。

インシデントを調査する

[インシデントの詳細] ページには、インシデントの原因を特定する際に役立つ情報が表示されます。

クエリ結果を調べる

[Total slot time consumed per day] ペインには、過去 24 時間に予約済みの BigQuery スロットでアラートポリシーの SQL クエリの実行に費やされた時間が表示されます。

[SQL query results] ペインには、ログ分析がアラートポリシーの条件から SQL クエリを実行したクエリ結果の概要のリストが表示されます。デフォルトでは、アラートポリシーの条件に一致するクエリのみが表示されるようにリストがフィルタされます。

ログ分析がクエリを実行した特定の時点のクエリとクエリ結果のテーブルを表示するには、[クエリ実行時刻] 列の値をクリックします。
アラートポリシーの条件に一致するクエリ結果のみを表示するか、ログ分析がアラートポリシーから実行したすべてのクエリを表示するかを切り替えるには、[Show only queries matching alert conditions] をクリックします。

補足情報を表示する

[ドキュメント] セクションには、アラートポリシーの作成時に指定した通知のドキュメントテンプレートが表示されます。この情報には、アラートポリシーがモニタリングする内容の説明と、対策のヒントを含めることができます。詳細については、ユーザー定義のドキュメントで通知にアノテーションを付けるをご覧ください。

アラートポリシーのドキュメントを構成しなかった場合、[ドキュメント] ペインには「ドキュメントが構成されていません」と表示されます。

アプリケーション全体の根本的な問題を特定するには、他のアラートポリシーの条件に関連するインシデントを調べます。

[Related Incidents] セクションには、アラートポリシーの条件が満たされたときに作成された他のインシデントのリストが表示されます。

インシデントを管理する

インシデントは次のいずれかの状態になります。

対応待ち: SQL ベースのアラートポリシーの条件が満たされましたが、インシデントは対応待ちです。同じ条件が再度満たされても、インシデントがすでに開いている場合、新しいインシデントは開きません。
確認済み: インシデントが開かれていて、手動で確認済みとしてマークされています。通常、このステータスは、そのインシデントが調査中であることを示します。
クローズ済み: インシデントを手動でクローズしたか、自動クローズ期間が終了した後に自動的にクローズされました。

インシデントを確認する

インシデントの原因調査を開始するときは、インシデントに確認済みのマークを付けることをおすすめします。

インシデントに確認済みのマークを付けるには、次の操作を行います。

[アラート] ページの [インシデント] ペインで [すべてのインシデントを表示] をクリックします。
[インシデント] ページで、確認するインシデントを見つけて、次のいずれかを行います。
- （その他のオプション）をクリックし、[確認] を選択します。
- インシデントの詳細ページを開いて、[インシデントを確認する] をクリックします。

アラートポリシーをスヌーズする

特定の期間中に Monitoring でインシデントが作成されて通知が送信されないようにするには、関連するアラートポリシーをスヌーズします。アラートポリシーをスヌーズすると、そのアラートポリシーに関連するインシデントは開かれたままになりますが、それ以上の通知は発生しません。インシデントは、アラートポリシーの自動クローズ期間に基づいてクローズされます。

表示しているインシデントのスヌーズを作成するには、次の操作を行います。

[インシデントの詳細] ページで、[ポリシーをスヌーズ] をクリックします。
スヌーズ期間を選択します。スヌーズ期間を指定すると、スヌーズがすぐに開始されます。

[インシデント] ページから、スヌーズするインシデントを見つけて（その他のオプション）をクリックし、[スヌーズ] を選択して、アラートポリシーをスヌーズすることもできます。サービス停止中はアラートポリシーをスヌーズして、トラブルシューティングプロセス中に通知が届かないようにすることができます。

インシデントをクローズする

Monitoring でインシデントをクローズすることも、ユーザーがインシデントをクローズすることもできます。

アラートポリシーの自動クローズ期間が終了すると、Monitoring によってインシデントが自動的にクローズされます。デフォルトの自動クローズ期間は 7 日間です。自動クローズ期間は最短 30 分です。

自動クローズ期間には、インシデントの原因が再発しない状態で経過する必要がある時間を指定します。このため、インシデントが開かれている間にその原因が再発した場合、インシデントは自動クローズ期間よりも長く開かれたままになる可能性があります。

インシデントをクローズする手順は次のとおりです。

[アラート] ページの [インシデント] ペインで [すべてのインシデントを表示] をクリックします。
[インシデント] ページで、クローズするインシデントを見つけて、次のいずれかを行います。
- （もっと見る）をクリックし、[インシデントを閉じる] を選択します。
- そのインシデントの [インシデントの詳細] ページを開き、[インシデントを閉じる] をクリックします。

メッセージ「Unable to close incident」が表示された場合は、数分後にもう一度お試しください。インシデントの原因となった条件はアラートシステムによって引き続き有効であるとみなされるため、新しいインシデントを直ちにクローズすることはできません。

データの保持と上限

インシデントの制限と保持期間の詳細については、アラートの上限をご覧ください。

次のステップ

Cloud Logging API やコマンドラインを使用してアラートポリシーを作成、管理するには、API によるアラートポリシーの管理をご覧ください。