信頼性の現実的な目標を設定する

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework の信頼性の柱におけるこの原則は、 Google Cloudのワークロードで技術的に実現可能な信頼性の目標を定義するうえで役立ちます。

この原則は、信頼性のスコープ設定重点分野に関連しています。

原則の概要

ユーザーが満足できるだけの信頼性を備えたシステムを設計します。直感に反するかもしれませんが、100% の信頼性を目標にすることは、多くの場合、最も効果的な戦略ではありません。信頼性を高めると、財務投資とイノベーションの潜在的な制限の両面で、コストが大幅に増加する可能性があります。ユーザーが現在のサービスレベルにすでに満足している場合、満足度をさらに高めるための取り組みは、投資収益率が低くなる可能性があります。代わりに、リソースを他の場所に有効に活用できます。

ユーザーが満足する信頼性のレベルを特定し、改善のコストがメリットを上回るポイントを特定する必要があります。このレベルの十分な信頼性を判断できれば、リソースを戦略的に割り当て、ユーザーに大きな価値をもたらす機能と改善に注力できます。

推奨事項

現実的な信頼性の目標を設定するには、次のサブセクションの推奨事項を検討してください。

一部の障害を許容し、コンポーネントの優先順位を付ける

稼働率 99.99% などの高可用性を目指しますが、稼働率 100% を目標に設定しないでください。一部の失敗は避けられないことを認識します。

100% の稼働時間と 99.99% の目標値の差は、障害の許容範囲です。このギャップは、多くの場合、エラー バジェットと呼ばれます。エラー バジェットは、リスクを冒してイノベーションを起こすのに役立ちます。これは、競争力を維持するためにあらゆるビジネスに不可欠です。

システム内の最も重要なコンポーネントの信頼性を優先します。重要度の低いコンポーネントは、障害に対する許容度が高くなることを受け入れます。

信頼性と費用のバランスを取る

システムの最適な信頼性レベルを判断するには、費用対効果分析を徹底的に実施します。

システム要件、障害の結果、特定のアプリケーションに対する組織のリスク許容度などの要素を考慮します。目標復旧時間(RTO)や目標復旧時点(RPO)などの障害復旧指標を考慮することを忘れないでください。予算とその他の制約内で許容できる信頼性のレベルを決定します。

効率を改善し、重要な信頼性機能を損なうことなくコストを削減する方法を探します。