オブザーバビリティを使用して潜在的な障害を検出する

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework の信頼性の柱におけるこの原則では、エラーや障害が発生する可能性のある領域を事前に特定するうえで役に立つ推奨事項が示されています。

この原則は、信頼性のモニタリング重点分野に関連しています。

原則の概要

Google Cloudでワークロードの信頼性を維持し、向上させるには、指標、ログ、トレースを使用して効果的なオブザーバビリティを実装する必要があります。

  • 指標は、特定の時間間隔でアプリケーションの追跡対象となるアクティビティの数値測定です。たとえば、リクエスト率やエラー率などの技術指標を追跡して、サービスレベル指標(SLI)として使用できます。注文数や支払い受領額など、アプリケーション固有のビジネス指標をトラッキングする必要がある場合もあります。
  • ログは、アプリケーションまたはシステム内で発生する個別のイベントのタイムスタンプ付きの記録です。イベントは、障害、エラー、状態の変化のいずれかです。ログには指標が含まれる場合があり、ログを SLI に使用することもできます。
  • トレースは、単一のユーザーまたはトランザクションが複数の個別のアプリケーションまたはアプリケーションのコンポーネントを通過する過程を表します。たとえば、これらのコンポーネントはマイクロサービスです。トレースを使用すると、ジャーニーで使用されたコンポーネント、ボトルネックの場所、ジャーニーにかかった時間を追跡できます。

指標、ログ、トレースは、システムを継続的にモニタリングするのに役立ちます。包括的なモニタリングにより、エラーの発生場所と発生原因を特定できます。エラーが発生する前に、潜在的な障害を検出することもできます。

推奨事項

潜在的な障害を効率的に検出するには、次のサブセクションの推奨事項を検討してください。

包括的な分析情報を取得する

レスポンス時間やエラー率などの主要な指標を追跡するには、Cloud MonitoringCloud Logging を使用します。これらのツールは、指標がワークロードのニーズを常に満たしていることを確認するうえでも役立ちます。

データに基づいた意思決定を行うには、デフォルトのサービス指標を分析して、コンポーネントの依存関係と、それらがワークロード全体のパフォーマンスに与える影響を把握します。

モニタリング戦略をカスタマイズするには、Google Cloud SDK を使用して独自の指標を作成し、公開します。

事前トラブルシューティングを実施する

堅牢なエラー処理を実装し、 Google Cloudのワークロードのすべてのコンポーネントでロギングを有効にします。Cloud Storage アクセスログVPC Flow Logs などのログを有効にします。

ロギングを構成する場合は、関連する費用を考慮してください。ロギング費用を制御するには、ログシンクに除外フィルタを構成して、特定のログが保存されないようにします。

リソース使用率を最適化する

CPU 使用率、ネットワーク I/O 指標、ディスク I/O 指標をモニタリングして、GKE、Compute Engine、Dataproc などのサービスでリソースのプロビジョニング不足や過剰なプロビジョニングを検出します。サポートされているサービスの一覧については、Cloud Monitoring の概要をご覧ください。

アラートの優先順位付け

アラートの場合は、重要な指標に焦点を当て、適切なしきい値を設定して「アラート疲れ」を最小限に抑え、重大な問題にタイムリーに対応できるようにします。このターゲット アプローチにより、ワークロードの信頼性を事前に維持することができます。詳細については、アラートの概要をご覧ください。