このページは Cloud Translation API によって翻訳されました。

オブザーバビリティを使用して潜在的な障害を検出する

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework の信頼性の柱におけるこの原則では、エラーや障害が発生する可能性のある領域を事前に特定するうえで役に立つ推奨事項が示されています。

この原則は、信頼性のオブザーバビリティの重点分野に関連しています。

原則の概要

Google Cloudでワークロードの信頼性を維持し、向上させるには、指標、ログ、トレースを使用して効果的なオブザーバビリティを実装する必要があります。

指標は、特定の時間間隔でアプリケーションの追跡対象となるアクティビティの数値測定値です。たとえば、リクエスト率やエラー率などの技術指標を追跡して、サービスレベル指標（SLI）として使用できます。注文数や支払いの受領額など、アプリケーション固有のビジネス指標のトラッキングが必要な場合もあります。
ログは、アプリケーションまたはシステム内で発生する個別のイベントのタイムスタンプ付きの記録です。イベントは、障害、エラー、状態変化のいずれかです。ログには指標が含まれる場合があり、ログを SLI に使用することもできます。
トレースは、単一のユーザーまたはトランザクションが複数の個別のアプリケーションまたはアプリケーションコンポーネントを通過する過程を表します。これらのコンポーネントは、マイクロサービスの場合もあります。トレースを使用すると、ジャーニーで使用されたコンポーネント、ボトルネックの場所、ジャーニーにかかった時間を追跡できます。

指標、ログ、トレースは、システムの継続的なモニタリングすに役立ちます。包括的なモニタリングにより、エラーの発生場所と発生原因を特定できます。エラーが発生する前に、潜在的な障害を検出することもできます。

推奨事項

潜在的な障害を効率的に検出するには、次のサブセクションの推奨事項を検討してください。

包括的な分析情報を取得する

レスポンス時間やエラー率などの主要な指標を追跡するには、Cloud Monitoring と Cloud Logging を使用します。これらのツールは、指標がワークロードのニーズを常に満たしていることを確認するうえでも役立ちます。

データドリブンの意思決定を行うには、デフォルトのサービス指標を分析し、コンポーネントの依存関係と、それらがワークロード全体のパフォーマンスに与える影響を把握します。

モニタリング戦略をカスタマイズするには、Google Cloud SDK を使用して独自の指標を作成して公開します。

予防的トラブルシューティングを実施する

堅牢なエラー処理を実装し、 Google Cloudのワークロードのすべてのコンポーネントでロギングを有効にします。Cloud Storage アクセスログや VPC Flow Logs などのログを有効にします。

ロギングを構成する場合は、関連する費用を考慮してください。ロギング費用を制御するには、ログシンクに除外フィルタを構成し、特定のログが保存されないようにします。

リソース使用率を最適化する

CPU 使用量、ネットワーク I/O 指標、ディスク I/O 指標をモニタリングして、GKE、Compute Engine、Dataproc などのサービスでリソースのプロビジョニング不足や過剰なプロビジョニングを検出します。サポートされているサービスの一覧については、Cloud Monitoring の概要をご覧ください。

アラートの優先順位付け

アラートの場合は、重要な指標に焦点を当て、適切なしきい値を設定して「アラート疲れ」を最小限に抑え、重大な問題にタイムリーに対応できるようにします。このターゲットアプローチにより、ワークロードの信頼性を事前に維持することができます。詳細については、アラートの概要をご覧ください。

水平方向のスケーラビリティを活用する

グレースフルデグラデーションとなるように設計する