ホストイベントについて

Linux Windows

仮想マシン（VM）インスタンスまたはベアメタルインスタンスの存続期間中、インスタンスが実行されているホストマシンで複数のホストイベントが発生する可能性があります。ホストイベントには、Compute Engine インフラストラクチャの定期メンテナンスが含まれます。また、まれにホストエラーが含まれることもあります。ホストメンテナンスポリシーを構成することで、ホストイベントの発生中または発生後に VM インスタンスとベアメタルインスタンスがどのように応答するかを選択できます。

デフォルトでは、ほとんどのインスタンスはホストイベント中にライブマイグレーションされるように設定されます。この動作をオーバーライドして、インスタンスを終了し、必要に応じて再起動するように明示的に設定できます。一部のマシンタイプ（18 TiB を超える Titanium SSD がアタッチされた Z3 インスタンス、ベアメタルインスタンス、GPU がアタッチされたインスタンスなど）は、ライブマイグレーションをサポートしていません。これらのインスタンスは、ホストイベント中に終了されます。詳細については、メンテナンスと再起動の動作をご覧ください。

ホストイベントの種類

ホストイベントには次の 2 種類があります。次のセクションで詳しく説明します。

メンテナンスイベント
ホストエラー

インスタンスが応答しなくなった場合にも、インスタンスの再起動または終了がトリガーされることがあります。

メンテナンスイベント

メンテナンスイベントとは、Compute Engine がメンテナンスまたは修復アクティビティを実行するために VM をホストサーバーから移動する必要がある場合のことを指します。サポートされているインスタンスタイプでライブマイグレーションのホストメンテナンスポリシーを有効にすると、Compute Engine によってインスタンスが新しいホストに移動されるため、アプリケーションの停止が最小限に抑えられます。

また、Compute Engine は、同じホストにインスタンスを保持することで、軽量のハイパーバイザとネットワークのアップグレードをバックグラウンドで無停止で適用します。

メンテナンスイベント中のインスタンスの動作は、インスタンスのテナンシーとマシンタイプによって異なる場合があります。各マシンタイプのメンテナンス動作については、次の各マシンファミリーのページをご覧ください。

C シリーズ:
- C2 と C2D: コンピューティング最適化マシンファミリー
- その他のすべての C シリーズ: 汎用マシンファミリー
E、N、T シリーズ: 汎用マシンファミリー
H シリーズ: コンピューティング最適化マシンファミリー
M シリーズと X シリーズ: メモリ最適化マシンファミリー
Z シリーズ: ストレージ最適化マシンファミリー

特定のマシンシリーズのメンテナンスポリシーについては、マシンシリーズの比較を確認してください。

単一テナント VM の場合、計画されたホストメンテナンスイベントのおおよその頻度は 4～6 週間ごとです。ライブマイグレーションのサポートは、単一テナント VM のホストメンテナンスポリシーによって異なります。

ホストエラー

ホストエラー（compute.instances.hostError）は、コンピューティングインスタンスをホストしている物理マシンまたはデータセンターインフラストラクチャで、インスタンスがクラッシュするようなハードウェアまたはソフトウェアの問題が発生したことを意味します。ハードウェア全体の障害やその他のハードウェアの問題でホストエラーが発生すると、インスタンスのライブマイグレーションが停止することがあります。インスタンスが自動的に再起動するように設定されている場合（デフォルト設定）、Compute Engine は通常、エラーが検出されてから 3 分以内にインスタンスを再起動します。問題によっては、再起動に最大 5.5 分かかります。

ホストエラーが通知される前に、コンピューティングインスタンスが応答しなくなる場合があります。ホストエラー回復タイムアウトを設定することで、Compute Engine がインスタンスの再起動または終了を待機する時間を短縮できます。詳細については、可用性ポリシーを設定するをご覧ください。

物理的なハードウェアとソフトウェアの障害は、発生する可能性はありますが、まれな現象です。起こりうる破壊的なシステムイベントからアプリケーションやサービスを保護するため、次の方策を確認してください。

Google は、App Engine や App Engine フレキシブル環境などのマネージドサービスも提供しています。

ホストメンテナンスポリシーの概要

インスタンスのホストメンテナンスポリシーは、次のホストイベント中にインスタンスがどのように動作するかを決定します。

メンテナンスイベント
ホストエラーイベントまたはインスタンスの応答停止

Compute Engine がインスタンスを別のホストへライブマイグレーションし、ホストのメンテナンス中もインスタンスの実行を継続するように構成できます。また、インスタンスの停止を選択することもできます。

インスタンスのホストメンテナンスポリシーを変更するには、次の設定を構成します。

メンテナンスの動作: メンテナンスイベントが発生した場合にインスタンスをライブマイグレーションするか、または停止するかを設定します。
再起動の動作: インスタンスがクラッシュした場合、ホストエラーが発生した場合、または応答しなくなった場合に、Compute Engine がインスタンスを再起動するか終了するかを設定します。
ホストエラー検出時間: インスタンスが応答していないことを検出した後、Compute Engine がインスタンスの再起動または終了を行うまで待機する最大時間を設定します。
ローカル SSD の復元時間: ホストエラーの検出後、Compute Engine がローカル SSD ディスクのデータの復元に費やす最大時間。復元が正常に実行されないまま指定時間が経過すると、ローカル SSD データは失われます。

インスタンスのホストメンテナンスポリシーはインスタンスの動作を定義します。このポリシーはいつでも更新できます。

メンテナンスと再起動の動作

ホストイベントが発生した場合、コンピューティングインスタンスをライブマイグレーションするか、またはインスタンスを終了できます。インスタンスが終了した場合は、インスタンスを手動で再起動するか、Compute Engine に自動的に再起動させるかを選択できます。

次のマシンシリーズはライブマイグレーションをサポートしていないため、ホストイベント中に終了する必要があります。

Z3 インスタンスは、インプレースで再起動します。
ベアメタルインスタンスは終了して再起動します。つまり、別のホストで再起動される可能性があります。
AMD SEV を実行する AMD EPYC Milan CPU プラットフォームの N2D マシンタイプを除く、Confidential VM インスタンス。
GPU を使用するインスタンス
TPU を使用するインスタンス

ライブマイグレーション

デフォルトでは、ほとんどのインスタンスタイプはライブマイグレーションされるよう設定されています。ただし、前のセクションで説明したインスタンスタイプは除きます。

ライブマイグレーション中、Compute Engine はインスタンスを自動的に移行し、インフラストラクチャのメンテナンスイベントの影響を回避します。インスタンスはマイグレーション中も実行されます。通常、ほとんどのインスタンスのパフォーマンスには大きな影響が及ぶことはありませんが、インスタンスのパフォーマンスが一時的に低下することがまれにあります。継続的な稼働時間を必要とし、一時的なパフォーマンスの低下を許容できるインスタンスにとって、この設定は最適です。

インスタンスを移行する際、Compute Engine はゾーンオペレーションのリストとシステムイベントログにパブリッシュされているシステムイベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。ライブマイグレーションイベントには、次のオペレーションタイプがあります。

compute.instances.migrateOnHostMaintenance

終了して再起動

インスタンスをライブマイグレーションしない場合や、インスタンスタイプがライブマイグレーションをサポートしていない場合は、代わりに、ホストイベントが発生したときにGoogle Cloud がインスタンスを停止できるようにします。この構成では、ホストイベントが発生すると、Compute Engine はソフトパワーオフ信号を送信してインスタンスをシャットダウンします。その後、インスタンスが完全にシャットダウンするまで 60 秒間待機し、インスタンスのステータスを TERMINATED に設定します。インスタンスが 60 秒以内に正常にシャットダウンしない場合、インスタンスは強制的に終了されます。

インスタンスが常に最大のパフォーマンスを必要とし、アプリケーション全体がインスタンスの障害や再起動を処理するように構築されている場合は、このオプションが最適です。

ホストイベントが原因で Compute Engine がインスタンスを停止すると、ゾーンオペレーションのリストとシステムイベントログにパブリッシュされているシステムイベントが報告されます。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。インスタンスの終了イベントには、次のオペレーションタイプがあります。

compute.instances.terminateOnHostMaintenance

自動再起動

メンテナンスイベントが発生したとき、または基盤となるハードウェアの問題でインスタンスがクラッシュしたときにインスタンスを停止するように構成している場合、Compute Engine はインスタンスを自動的に再起動できます。インスタンスは、同じホストサーバーで再起動するか、メンテナンスイベントに参加していない同じゾーンの別のサーバーに移動されます。

デフォルトでは、Compute Engine は、アタッチされたローカル SSD ディスクを使用してインスタンスの復元を 1 時間試みます。時間制限に達すると、Compute Engine は同じゾーンの別のホストサーバーでインスタンスの再起動を試みます。 Z3 インスタンスと X4 インスタンスのデフォルトの待機時間は異なります。これらのインスタンスタイプは、インスタンスの終了後に同じホストサーバーで再起動されます。

自動再起動を構成するには、ホストメンテナンスポリシーのフィールド automaticRestart を true に設定します。この設定は、ゾーンの停止が原因でインスタンスがオフラインになった場合、またはゲスト OS 内で sudo shutdown を呼び出すなどの手動操作によってインスタンスがオフラインになった場合には適用されません。

インスタンスを自動的に再起動する際、Compute Engine はゾーンオペレーションのリストに公開されているシステムイベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。自動再起動イベントには、次のオペレーションタイプがあります。

compute.instances.automaticRestart

インスタンス終了後のディスクの永続性

Persistent Disk とHyperdisk はネットワーク接続ストレージであるため、インスタンスの再起動時に、Compute Engine はブートディスクとセカンダリディスクをインスタンスに再アタッチします。これらのディスク上のデータは、ライブマイグレーション後やインスタンスの再起動後も維持されます。

Compute Engine は、可能であればホストイベントの後もローカル SSD ディスク上のデータを保持します。ただし、Compute Engine ではローカル SSD データの永続性が保証されません。

ローカル SSD ディスクは、次のシナリオで保持されます。
- ライブマイグレーションするようにインスタンスを構成し、そのインスタンスにホストメンテナンスイベントが発生した場合。
- ホストエラーが発生し、Compute Engine がタイムアウト制限内にインスタンスをローカル SSD ディスクに再接続した場合。
- ローカル SSD ディスクがアタッチされ、終了と自動再起動のみをサポートするコンピューティングインスタンスにメンテナンスイベントが発生した場合。インスタンスは新しいホストに移行せずに、インプレースで再起動され、ローカル SSD データが保持されます。
次のシナリオでは、ローカル SSD ディスクは保持されません。
- ゲストオペレーティングシステムをシャットダウンし、インスタンスを強制的に停止した場合。
- ホストメンテナンスイベントで停止するようにインスタンスを構成し、そのインスタンスにホストメンテナンスイベントが発生した場合。
- ホストエラーが発生し、タイムアウトになる前に Compute Engine がディスクをインスタンスに再接続できない場合。この場合、ローカル SSD ディスクが復元されずにインスタンスが再起動されます。インスタンスが再起動すると、Compute Engine は、再起動されたインスタンスに空のローカル SSD ディスクをアタッチします。インスタンスでこれらのディスクを使用するには、ディスクをフォーマットしてマウントする必要があります。元のローカル SSD ディスク上のデータは復元できません。

Google Cloud は、ローカル SSD データをそのまま維持するためにベストエフォートアプローチを使用します。ただし、タイムアウトなど、データが復元できない場合があります。ローカル SSD ディスクが保持される場合の詳細については、ローカル SSD データの永続性をご覧ください。

ローカル SSD の復元タイムアウト

ホストエラーが発生すると、Compute Engine はインスタンスにアタッチされているローカル SSD ディスクの復元を試みます。Compute Engine がデータの復元を試みる時間は、ホストポリシー localSsdRecoveryTimeout で設定できます。

デフォルトでは、Compute Engine がデータの復元に費やす時間は 1 時間に設定されますが、この設定の有効な値は 0～168 で、1 時間単位で増やすことができます。Z3 インスタンスのデフォルト値は 6 です。つまり、Z3 インスタンスはタイムアウトの上限に達するまで 6 時間、ローカル SSD データの復元を試みます。

ローカル SSD の復元タイムアウトを 0 に設定すると、Compute Engine はアタッチされているローカル SSD ディスクの復元を試みません。インスタンスは可能な限り速やかに再起動され、ローカル SSD データは復元できません。ローカル SSD データの復元よりもワークロードの再開の方が重要な場合は、この構成を使用します。

復元タイムアウトが 0 に設定されておらず、ローカル SSD データが復元される前に時間制限に達した場合、Compute Engine はローカル SSD ディスクなしでインスタンスを再起動します。Compute Engine は、再起動されたインスタンスに新しい空のローカル SSD ディスクをアタッチします。インスタンスでこれらのディスクを使用するには、ディスクをフォーマットしてマウントする必要があります。

Compute Engine がローカル SSD ディスクの復元を試みている間、インスタンスは REPAIRING 状態になります。この間、インスタンスとローカル SSD ディスクは使用できません。

ローカル SSD の復元タイムアウトを最大値の 168 に設定すると、Compute Engine がローカル SSD ディスクの復元を試みる間、インスタンスは最大 7 日間 REPAIRING 状態のままになります。

ローカル SSD ディスクの復元を停止する

Compute Engine が復元タイムアウトの上限に達する前に、ローカル SSD ディスクの復元プロセスを中断できます。これを行うには、--discard-local-ssd=True フラグを指定して gcloud compute instances stop コマンドを使用します。

このコマンドを使うと、復元プロセスが停止します。コンピューティングインスタンスは停止し、ローカル SSD データは破棄されます。その後、インスタンスを再起動できます。詳細については、ローカル SSD を使用するインスタンスを停止するをご覧ください。

このオプションは Z3 インスタンスでは使用できません。

ローカル SSD の復元タイムアウトの設定については、インスタンスホストメンテナンスポリシーを設定するをご覧ください。

メンテナンスのスケジュール設定

Google Cloud には、メンテナンスをより厳密に管理できる機能が用意されています。特定のマシンファミリーを使用すると、メンテナンス設定を指定し、Cloud Logging、インスタンスのメタデータサーバー、gcloud CLI compute instances describe コマンド、または REST instances.describe メソッドから今後のメンテナンスイベントの通知を受け取ることができます。通知の受け取り後は、一定の期間内の任意の時間に、スケジュールされたメンテナンスを開始できます。スケジュール設定されたメンテナンスをトリガーしない場合、メンテナンスイベントは通知期間の終了時に発生します。通知期間は、通知に記載されているスケジュール時間です。

これらの機能とホストメンテナンスポリシーを組み合わせて、ワークロードに適したメンテナンススケジュールをカスタマイズできます。