クラウドで繁忙期やトラフィックの多いイベントを管理する場合、次の 3 つの主要なフェーズがあります。
- 準備: イベントに対する準備として、アーキテクチャ レビュー、容量計画、予約の作成などのアクティビティとタスクを完了します。
- 実行: イベントの発生時にイベントを注意深くモニタリングし、必要に応じて対応します。
- 分析: イベントが終了したら、成功したこと、失敗したこと、今後のイベントを改善する方法を分析します。
これらのフェーズでは、特定のベスト プラクティスを理解して実践し、イベント中のダウンタイムを最小限に抑え、パフォーマンスやユーザー エクスペリエンスの低下を防ぐ必要があります。
準備: イベント計画プロセスを詳細に記述する
ピーク容量イベントの準備段階では、アカウント チームまたは TAM と連携して、アーキテクチャの確認、図、タイムライン、リリース チェックリストの作成、予想されるトラフィック プロファイルに基づくサービス割り当ての確認、プロジェクトへの全体的な影響の判断を行う必要があります。
イベントの開催日よりかなり前に計画を開始する必要があります。サービスがまだ開発中であるにもかかわらず、数か月前に計画を開始しなければならない場合もあります。提案されたイベント ワークフロー、想定されるオーディエンス、要件と成功基準、エンドツーエンドのメディア配信チェーンの確認をサポートできるチームを編成します。準備フェーズには、ワークフローが適切に設計されていることを確認するためのリスク評価、緩和計画、運用準備状況の確認が含まれます。
詳細については、Google Cloud アーキテクチャ フレームワークをご覧ください。アーキテクト、デベロッパー、管理者、その他のクラウドの実務担当者向けに、安全で効率的、復元性が高く、高パフォーマンスで費用対効果に優れたクラウド トポロジを設計および運用するための最適化案が提供されています。
実行: 実行中にモニタリングし、対応する
繁忙期やリリース イベントの開始時には、アクティビティを注意深くモニタリングし、必要に応じて対応する必要があります。準備フェーズでモニタリング、アラート、ロギングを設定しているので、ビジネス クリティカルなトラフィック、ログ、割り当てレベルをモニタリングし、この情報を使用して根本原因を特定して問題を迅速に解決できます。詳細については、アラートとダッシュボードを確認するをご覧ください。
問題が発生した場合、問題に対処して解決するために必要な労力と時間を削減するには、インシデント管理とエスカレーション プロセスを明確に定義することが重要です。まだ設定していない場合は、インシデント管理プロセスを設定します。詳細については、イベント中に問題の解決を準備するをご覧ください。
分析: 分析結果を確認して記録する
ピークシーズンやリリース イベントが終了したら、イベントを確認して分析し、得られた知見を記録して、次の大きなイベントに適用できるようにします。
次の領域に焦点を当てます。
タイムラインの概要: トラフィックが急増したタイミングと、イベント期間中の主なイベント(ピーク)を把握します。問題が発生した場合は、そのタイミングを把握します。
根本原因の分析: 発生した問題を調査します。自身または Google Cloud が何か別の方法で対応できたと思うことはあるか。翌年に向けて検討すべきことはあるか。得られた教訓と、今後の改善に必要な手順を文書化します。
予測と実際の比較: トラフィックの予測と、記録された実際のトラフィックを分析します。追加のリソースが必要だった箇所はどこか。リソースが十分に活用されていないか、不要だった箇所はどこか。
事後検証: 上記の情報を主要な関係者と共有して確認します。責任を問わない文化を推進します。この文化では、関係するすべての人が善意を持っていたものと想定し、個人やチームを追求するのではなく、原因の特定に重点を置きます。