このページは Cloud Translation API によって翻訳されました。

ピーク容量イベントに備える

このガイドでは、ピーク時の容量イベントとトラフィック増加に備えて準備することで、パフォーマンスやユーザーエクスペリエンスの低下を回避し、ダウンタイムを最小限に抑えてサービスを提供できるようにする方法について説明します。

クラウドでイベントを管理する際には、主に次の 3 つのフェーズがあります。

準備: イベントに対する準備として、アーキテクチャレビュー、容量計画、予約の作成などのアクティビティとタスクを完了します。
実行: イベントの発生時にイベントを注意深くモニタリングし、必要に応じて対応します。
分析: イベントが終了したら、成功したこと、失敗したこと、今後のイベントを改善する方法を分析します。

このガイドでは、準備フェーズを中心に説明します。

チェックリスト

次のタスクを完了して、ピーク時の容量イベントに備える方法を学習します。

イベント管理のベストプラクティスを理解する
イベントに適した容量をリクエストして確保する
イベント中の迅速な問題解決に備える
クラウドリソースの管理と最適化
負荷テストのスケジュールを設定して実施する
災害復旧テストのスケジュール設定と実施

このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示

イベント管理のベストプラクティスを理解する

イベント管理のベストプラクティスを理解し、それに従う必要があります。

イベント計画プロセスを詳細に決める: ピーク容量イベントの準備段階では、アカウントチームまたは TAM と連携して、アーキテクチャの確認、図、タイムライン、リリースチェックリストの作成、予想されるトラフィックプロファイルに基づくサービス割り当ての確認、プロジェクトへの全体的な影響の判断を行う必要があります。
実行中にモニタリングし、対応する: 繁忙期やリリースイベントの開始時には、アクティビティを注意深くモニタリングし、必要に応じて対応する必要があります。問題が発生した場合、問題に対処して解決するために必要な労力と時間を削減するには、インシデント管理とエスカレーションプロセスを明確に定義することが重要です。
分析を確認して記録する: ピークシーズンやリリースイベントが終了したら、イベントを確認して分析し、得られた知見を記録して、次の大きなイベントに適用できるようにします。

詳細については、イベント管理のベストプラクティスをご覧ください。

イベントに適した容量をリクエストして確保する

準備フェーズの重要なコンポーネントは、容量計画です。ここでは、ワークロードが効率的に動作するために必要なクラウドリソースの量を決定します。トラフィックの増加が予想されるイベントや繁忙期に備える際は、割り当てがリソース要件と一致していることを確認して、予期しない障害が発生しないようにしてください。詳細については、イベントの容量を確保するをご覧ください。

キャパシティプランナーを使用する

キャパシティプランナーを使用すると、仮想マシン（VM）インスタンス、Persistent Disk ボリューム、GPU の過去と将来の使用状況を確認できます。また、予約の表示、リソースの事前予約、プロジェクトの割り当て上限の管理、割り当ての自動増加リクエストの設定もできます。詳細については、キャパシティプランナーで使用状況と予測データを表示するをご覧ください。

Google Cloud コンソールで、[キャパシティプランナー] ページに移動します。

キャパシティプランナーに移動
コンソールのツールバーにあるリソースセレクタを使用して、プロジェクト、フォルダ、または組織を選択します。
使用状況データを表示する Compute Engine リソースのタイプを選択します。
- VM の使用状況データを表示するには、[仮想マシン] タブをクリックします（まだ選択していない場合）。
- Persistent Disk ボリュームの使用状況データを表示するには、[ディスク] タブをクリックします。
- GPU の使用状況データを表示するには、[GPU] タブをクリックします。
要素をフィルタして、リソースの使用状況と予測データのさまざまなデータビジュアリゼーションを表示できます。

割り当て調整を有効にする

割り当ての調整は、リソース消費量をモニタリングし、ユーザーに代わって割り当ての調整リクエストをプロアクティブに送信します。これにより、手動でリクエストを行う必要がなくなります。詳細については、割り当て調整の仕組みをご覧ください。

Google Cloud コンソールで、[IAM と管理] > [割り当てとシステム上限] ページに移動します。

[割り当てとシステム上限] に移動
[構成] タブをクリックします。
割り当て調整を有効にするには、[有効にする] をクリックしてオンにします。

[ステータス] 列に「有効」と表示されている場合、割り当て調整は使用量をモニタリングします。リソース使用量が割り当て値に近づくと、割り当て調整リクエストを発行します。

割り当ての調整をリクエストする

割り当てがニーズを満たしていない場合は、割り当ての調整をリクエストできます。詳細については、割り当ての表示と管理をご覧ください。

Google Cloud コンソールで、[IAM と管理] > [割り当てとシステム上限] ページに移動します。

[割り当てとシステム上限] に移動
更新する割り当ての横にあるチェックボックスをオンにします。

必要に応じて、割り当てを検索するには [フィルタ] を使用します。
[編集] をクリックすると、[割り当ての変更] ペインが表示されます。
[新しい値] フィールドに、必要な割り当て値を入力します。割り当て値には測定単位が設定されている場合があります。この場合は、隣接するリストから必要な単位を選択します。
オーバーライドよりも大きい割り当てをリクエストすると、割り当てのオーバーライドが削除されることを示すメッセージが表示された場合は、チェックボックスをオンにして続行し、[割り当ての増加を申し込む] を選択します。
[リクエストの説明] フィールドに説明を入力し、[完了] をクリックします。
[次へ] をクリックし、連絡先情報を入力します。
[リクエストを送信] をクリックします。

リクエストが拒否された場合は、サポートケースを作成するか、アカウントチームまたは TAM に連絡して、割り当ての増加をリクエストできます。

予約を作成する

予約を使用すると、必要なときに同じハードウェア（メモリと vCPU）とオプションのリソース（GPU とローカル SSD ディスク）を使用して VM を作成するための Compute Engine リソースを確保できます。

オンデマンド予約（デフォルト）は、リクエストされた容量が利用可能な場合、リクエスト時にプロビジョニングされます。将来の予約を使用すると、容量を事前にリクエストできます。将来の予約は、イベントのかなり前に確保することをおすすめします。詳細については、Compute Engine ゾーンリソースの予約をご覧ください。

単一プロジェクトのオンデマンド予約を作成する

Google Cloud コンソールで、[予約] ページに移動します。

[予約] に移動
[オンデマンド予約] タブ（デフォルト）で、[ 予約を作成] をクリックします。

[予約の作成] ページが開きます。
予約の名前を入力します。
リソースを予約するリージョンとゾーンを選択します。
[共有タイプ] で、[ローカル] を選択します（まだ選択されていない場合）。
Vertex AI のカスタムトレーニングジョブまたは予測ジョブで GPU VM の予約を使用できるようにするには、[Google Cloud サービス] セクションで [予約を共有] を選択します。
[VM インスタンスでの使用] オプションを選択します。
- 一致する VM が自動的にこの予約を消費できるようにするには、[予約を自動的に使用する] を選択します（まだ選択されていない場合）。
- 一致する VM の作成時に、この予約が名前で明示的にターゲットとして指定された場合にのみ、この予約のリソースが使用されるようにするには、[特定の予約を選択する] を選択します。
  
  注: インスタンステンプレートで A3 マシンタイプまたはコンパクトプレースメントポリシーを指定する場合は、[特定の予約を選択する] を選択する必要があります。そうしないと、エラーが発生します。
予約する VM インスタンスの数を入力します。
[マシンの構成] セクションで、次の操作を行います。
1. 既存のインスタンステンプレートから VM のプロパティを指定するには、[インスタンステンプレートを使用] を選択します。
2. インスタンステンプレートを指定します。リージョンテンプレートを選択した場合は、そのリージョンのリソースのみを予約できます。
指定した時刻に予約を自動的に削除するには、[自動削除を有効にする] チェックボックスをオンにします。予約の自動削除を設定しておくと、予約の使用を停止したときに不要な料金が発生しません。
予約を作成するには、[作成] をクリックします。

[予約] ページが開きます。予約の作成には最大で 1 分かかることがあります。

単一プロジェクトの将来の予約を作成する

Google Cloud コンソールで、[予約] ページに移動します。

[予約] に移動
[将来の予約] タブをクリックします。
[将来の予約を作成] をクリックします。

[将来の予約を作成] ページが開きます。
[名前] に、将来の予約リクエストの名前を入力します。
[接頭辞] に、名前の接頭辞を入力します。将来の予約リクエストから自動作成された各予約の名前は、この接頭辞で始まります。
[リージョン] と [ゾーン] で、リソースを予約するリージョンとゾーンを選択します。
[開始時刻] に、予約期間の開始時間を入力します。開始時間は、審査を受けるために将来の予約リクエストを送信した日時から 1 年以内にしてください。ロック時間になる前に、将来の予約を変更、キャンセル、削除するために十分な時間を確保するには、開始時間の推奨値を指定します。
[終了時刻] に、予約期間の終了時間を入力します。[期間の概要] セクションで、予約期間の長さを確認できます。審査を受けるために送信した将来の予約リクエストが Google Cloud で承認される可能性を高めるために、予約期間の推奨値を指定します。
[共有タイプ] セクションで、[ローカル] を選択します（まだ選択されていない場合）。
[必要な総容量] に、将来の予約リクエストで指定された期間、VM 構成、プロジェクトに予約する VM の合計数を入力します。

重要: 予約をリクエストしているリソースに十分な割り当てがあることを確認してください。十分な割り当てがないと、審査のために将来の予約リクエストを送信しても、 Google Cloud はリクエストを承認しません。
[マシンの構成] セクションで、次の操作を行います。
1. [インスタンステンプレートを使用] を選択します。
2. [インスタンステンプレート] で、任意のインスタンステンプレートを選択します。リージョンインスタンステンプレートを指定する場合は、テンプレートのリージョンと同じリージョン内のリソースのみを予約できます。
[自動生成された予約の自動削除] セクションで、次のいずれかを行います。
- 将来の予約リクエスト用に自動作成された予約を Compute Engine が自動的に削除できるようにするには、次の手順を実施します。
  
  注意: 自動削除オプションが有効になっている場合、自動作成された予約は、完全に使用されたかどうかに関係なく、指定された時間にすべて削除されます。
  1. [自動削除を有効にする] がオンになっていない場合は、クリックしてオンにします。
  2. 省略可: [自動削除日時] に、自動作成された予約を削除する日時を入力します。日時は予約期間の終了日より後にする必要があります。このフィールドを空のままにすると、自動作成された予約は予約期間の終了時間から 2 時間以内に削除されます。
- 自動削除しない場合は、[自動削除を有効にする] をクリックしてオフにします。
将来の予約リクエストのドラフトの作成を完了するには、[ドラフトを保存] をクリックします。

[予約] ページが開きます。将来の予約リクエストの作成が完了するまでに 1 分ほどかかることがあります。

イベント中の迅速な問題解決に備える

重大度の異なるインシデントへの対応方法、分類方法、解決方法は、イベント発生中の運用に大きな影響を与える可能性があります。インシデントのライフサイクル全体で効果的に追跡するには、一元化されたインシデント管理システムを使用します。

連絡先を確認して Personalized Service Health を有効にするだけでなく、次のことを行う必要があります。

カスタマーケアを利用する場合のベストプラクティスを確認する
コミュニケーション計画を作成する
アクセス権を確保する

詳細については、イベント中に問題の解決を準備するをご覧ください。

連絡先を確認する

多くの Google Cloud サービスは、 Google Cloud ユーザーと重要な情報を共有するために通知を送信します。デフォルトでは、これらの通知は特定の Identity and Access Management（IAM）ロールを持つメンバーに送信されます。重要な連絡先を使用する場合、独自の連絡先リストを指定することで、通知を受け取るユーザーをカスタマイズできます。詳細については、通知の連絡先の管理をご覧ください。

Google Cloud コンソールで、[IAM と管理] > [重要な連絡先] ページに移動します。

[重要な連絡先] に移動
コンソールツールバーのリソースセレクタに、プロジェクト、フォルダ、または組織の名前が表示されていることを確認します。リソースセレクタは、どのプロジェクト、フォルダ、組織の連絡先を管理しているかを示します。
連絡先をカテゴリ別に一覧表示するには、[カテゴリ] を選択します。連絡先をアルファベット順で一覧表示するには、[連絡先] を選択します。

注: 組織またはフォルダの連絡先を表示しても、その子リソースの連絡先は表示されません。祖先（組織や他のフォルダ）から連絡先を継承する子リソース（フォルダまたはプロジェクト）の連絡先を表示している場合、連絡先を表示する権限がある祖先から継承された連絡先が表示されます。

Personalized Service Health を有効にする

Personalized Service Health を使用すると、プロジェクトに関連する Google Cloud サービスの中断を特定し、効率的に管理して対応できます。詳細については、Personalized Service Health の概要をご覧ください。

イベントの前に Service Health API が有効になっていることと、組織がダッシュボードにアクセスしてアラートを構成できることを確認します。詳細については、Personalized Service Health へのアクセスを管理するをご覧ください。

Google Cloud コンソールのプロジェクトセレクタページで、 Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動
Enable the Service Health API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

クラウドリソースの管理と最適化

Google Cloudワークロードで使用されるリソースを管理して最適化します。これには、実際の使用量と需要に基づくリソースサイズの適正化、動的リソース割り当てでの自動スケーリングの使用、アーキテクチャとセキュリティの推奨事項の確認が含まれます。

Active Assist の推奨事項を確認するだけでなく、次のことも行います。

Google Cloud ベストプラクティスを確認する
スケーラビリティを確認する
プロダクトのバージョンを確認する
アラートとダッシュボードを確認する

詳細については、クラウドリソースを最適化するをご覧ください。

Active Assist の推奨事項を確認する

Active Assist は、 Google Cloud プロジェクトの最適化に役立つ推奨事項と分析情報を生成するためにGoogle Cloud で使用されるツールのポートフォリオです。詳細については、Active Assist とはをご覧ください。

Google Cloud コンソールで、[Active Assist] に移動します。

Active Assist に移動
コンソールのツールバーにあるリソースセレクタを使用して、Google Cloud プロジェクト、フォルダ、または組織を選択します。

組織またはフォルダに対する権限がある場合、その組織またはフォルダのレベルでのみ推奨事項を確認できます。フォルダまたはプロジェクトに対する権限は関係ありません。
ナビゲーションパネルで [すべての推奨事項] をクリックします。

フィルタ、並べ替え、共有が可能な推奨事項が表示されます。推奨事項を詳細に調査し、影響を受けるリソースと推奨事項の適用が及ぼす影響を確認できます。
推奨事項の詳細を確認するには、[推奨事項] 列で推奨事項をクリックします。

推奨事項を適用するかどうかの判断に役立つ関連データが表示されます。
権限がある場合は、該当するボタンをクリックして、推奨事項を適用または拒否できます。

推奨事項によっては、直接適用できない場合があります。コンソールに表示された手順に沿って適用してください。

負荷テストのスケジュールを設定して実施する

負荷テストでは、本番環境での使用中にシステムが正常にスケーリングされるかどうかを判断し、スケーリングを妨げるボトルネックを特定できます。

イベントの 3～5 か月前に、重要なプロジェクトとワークロードで負荷テストを実施し、ピーク時のトラフィックをシミュレートする必要があります。
負荷テストによる割り当てと費用への影響を調査し、最も負荷がかかるサービスの費用をモニタリングする Cloud Billing 予算アラートの作成を検討します。
各テストの後に結果を評価し、キャパシティプランナーを使用して使用状況と予測データを可視化して、必要に応じて割り当ての増加をリクエストします。このドキュメントで、キャパシティプランナーを使用すると割り当ての調整をリクエストするをご覧ください。

サポートが必要な場合は、アカウントチームまたは TAM にお問い合わせください。アーキテクチャの変更をキャプチャして計画し、サービスの全体的な信頼性と可用性を向上させることができるよう支援します。

障害復旧テストのスケジュール設定と実施

堅牢で十分にテストされた障害復旧（DR）戦略を採用している組織は、異常が発生した場合に中断による影響を最小限に抑え、迅速に復旧し、コア業務を速やかに再開できます。

DR 戦略には、緊急対応の詳細な要件、バックアップオペレーション、復旧手順を含める必要があります。

イベントの 1～3 か月前に、障害シナリオのシミュレーションを実施して、DR 計画と準備のギャップを確認します。
各テストの後に結果を評価し、アーキテクチャの変更が必要かどうかを判断します。必要に応じてリソースを確認し、最適化します。このドキュメントのクラウドリソースの管理と最適化をご覧ください。

アカウントチームまたは TAM は、DR テストや、インシデント対応プロセスを理解して改善する方法についてサポートします。詳細については、障害復旧計画ガイドをご覧ください。

リソースのサマリー

次の表に、このドキュメントで参照するガイドを示します。

イベント管理のベストプラクティスを理解する
イベント管理のベストプラクティス
イベントに適した容量をリクエストして確保する
将来の予約リクエストについてサポートケースの作成と管理インスタンステンプレート割り当ての調整 Compute Engine ゾーンリソースの予約イベントの容量を確保する予測で予約を使用するトレーニングで予約を使用する割り当ての表示と管理キャパシティプランナーで使用状況と予測データを表示する
イベント中の迅速な問題解決に備える
Personalized Service Health へのアクセスを管理する通知用の連絡先の管理 Personalized Service Health の概要イベント中に問題解決の準備をする
クラウドリソースの管理と最適化
クラウドリソースを最適化する Active Assist とは
負荷テストのスケジュールを設定して実施する
予算と予算アラートの作成、編集、削除
障害復旧テストのスケジュール設定と実施
障害復旧計画ガイド