Google Cloud Well-Architected Framework の信頼性の柱におけるこの原則は、ユーザー エクスペリエンスを評価し、その結果を信頼性の目標と指標にマッピングするうえで役立ちます。
この原則は、信頼性のスコープ設定 重点分野に関連しています。
原則の概要
オブザーバビリティ ツールは大量のデータを提供しますが、そのすべてがユーザーへの影響に直接関連しているわけではありません。たとえば、CPU 使用率が高い、サーバーの動作が遅い、タスクがクラッシュしたなどの状況が考えられます。ただし、これらの問題がユーザー エクスペリエンスに影響しない場合は、サービス停止とは見なされません。
ユーザー エクスペリエンスを測定するには、内部システム動作とユーザー向けの問題を区別する必要があります。ユーザー リクエストの成功率などの指標に注目します。CPU 使用率などのサーバー中心の指標のみに依存しないでください。サービスの信頼性について誤解を招く可能性があります。真の信頼性とは、ユーザーがアプリケーションやサービスを一貫して効果的に使用できることを意味します。
推奨事項
ユーザー エクスペリエンスを効果的に測定するには、次のセクションの推奨事項を検討してください。
ユーザー エクスペリエンスを測定する
サービスの信頼性を正確に把握するには、ユーザーの実際のエクスペリエンスを反映する指標を優先します。たとえば、ユーザーのクエリの成功率、アプリケーションのレイテンシ、エラー率を測定します。
理想的には、このデータをユーザーのデバイスまたはブラウザから直接収集します。この直接的なデータ収集が実現できない場合は、システム内で測定ポイントをユーザーから徐々に遠ざけていきます。たとえば、ロードバランサまたはフロントエンド サービスを測定ポイントとして使用できます。このアプローチにより、問題がユーザーに大きな影響を与える前に問題を特定して対処できます。
ユーザー ジャーニーを分析する
ユーザーがシステムをどのように操作しているかを把握するには、Cloud Trace などのトレースツールを使用します。アプリケーションでのユーザーのジャーニーを追跡することで、ユーザー エクスペリエンスを低下させる可能性のあるボトルネックやレイテンシの問題を見つけることができます。Cloud Trace は、サービス アーキテクチャの各ホップの詳細なパフォーマンス データをキャプチャします。このデータは、パフォーマンスの問題をより効率的に特定して対処するのに役立ち、信頼性が高く満足度の高いユーザー エクスペリエンスにつながります。