Google Cloud アーキテクチャ フレームワークの費用最適化の柱にこの原則では、絶えず変化し進化するビジネス目標に基づいてクラウド デプロイの費用を最適化するための推奨事項が示されています。
ビジネスの成長と進化に伴い、クラウド ワークロードはリソース要件と使用パターンの変化に適応する必要があります。クラウド費用から最大限の価値を引き出すには、ビジネス目標を継続的にサポートしながら費用対効果を維持する必要があります。これには、継続的な改善と最適化に重点を置いた、先進的で適応性のあるアプローチが必要です。
原則の概要
費用を継続的に最適化するには、クラウド環境を事前にモニタリングして分析し、現在の要件を満たすように適切に調整する必要があります。エンドユーザーのエクスペリエンスに直接影響し、ビジネス目標と整合し、継続的な改善のための分析情報を提供する主要なパフォーマンス指標(KPI)にモニタリングを集中させましょう。このアプローチでは、非効率性を特定して対処し、変化するニーズに適応し、クラウドの費用を戦略的なビジネス目標と継続的に調整できます。包括的なオブザーバビリティと費用対効果のバランスを取るには、リソース使用量のモニタリングの費用とメリットを理解し、適切なプロセス改善と最適化戦略を使用します。
推奨事項
Google Cloud 環境を効果的にモニタリングし、費用を継続的に最適化するには、次の推奨事項を検討してください。
ビジネスに関連する指標に焦点を当てる
効果的なモニタリングは、ビジネスと顧客にとって最も重要な指標を特定することから始まります。これらの指標には次のものがあります。
- ユーザー エクスペリエンスの指標: レイテンシ、エラー率、スループット、顧客満足度の指標は、アプリケーションの使用時にエンドユーザーがどのように感じているかを把握するのに役立ちます。
- ビジネス成果の指標: 収益、顧客数の増加、エンゲージメントをリソース使用量と関連付けて、費用の最適化の機会を特定できます。
- DevOps Research & Assessment(DORA)指標: デプロイ頻度、変更のリードタイム、変更の失敗率、復元時間などの指標は、ソフトウェア デリバリー プロセスの効率性と信頼性に関する分析情報を提供します。これらの指標を改善することで、生産性の向上、ダウンタイムの短縮、費用の最適化を実現できます。
- サイト信頼性エンジニアリング(SRE)指標: エラー バジェットは、許容できるサービス中断レベルを定量化して管理するのに役立ちます。信頼性に関する明確な期待値を確立することで、エラー バジェットにより、チームは安全マージンを把握し、より自信を持ってイノベーションを起こし、変更をデプロイできます。この事前対応型のアプローチにより、イノベーションと安定性のバランスが促進され、大規模な停止や長時間のダウンタイムに関連する過剰な運用コストを回避できます。
オブザーバビリティを使用してリソースを最適化する
オブザーバビリティを使用してクラウド デプロイメントのリソース ボトルネックと十分に活用されていないリソースを特定するための推奨事項は次のとおりです。
- リソース使用率をモニタリングする: リソース使用率の指標を使用して、十分に使用されていない Google Cloud リソースを特定します。たとえば、CPU やメモリ使用率などの指標を使用して、アイドル状態の VM リソースを特定します。Google Kubernetes Engine(GKE)の場合、費用の内訳と費用関連の最適化指標の詳細を確認できます。Google Cloud VMware Engine の場合は、リソース使用率を確認して、CUD、ストレージ使用量、ESXi の適切なサイズ設定を最適化します。
- クラウドの推奨事項を使用する: Active Assist は、クラウド運用の最適化に役立つインテリジェントなツールのポートフォリオです。これらのツールは、コスト削減、パフォーマンスの向上、セキュリティの改善、持続可能性に重点を置いた意思決定に役立つ実用的な推奨事項を提供します。たとえば、VM のサイズを適正化する分析情報を使用すると、リソースの割り当てを最適化し、不要な費用を回避できます。
- リソース使用率とパフォーマンスを関連付ける: リソース使用率とアプリケーション パフォーマンスの関係を分析し、ユーザー エクスペリエンスに影響を与えることなく、費用の低いリソースにダウングレードできるかどうかを判断します。
トラブルシューティングのニーズと費用のバランスを取る
詳細なオブザーバビリティ データは、問題の診断とトラブルシューティングに役立ちます。ただし、過剰な量のオブザーバビリティ データを保存したり、不要なデータを外部モニタリング ツールにエクスポートしたりすると、不要な費用が発生する可能性があります。効率的なトラブルシューティングを行うには、次の推奨事項を検討してください。
- トラブルシューティングに十分なデータを収集する: モニタリング ソリューションで、問題が発生したときに効率的に診断して解決できる十分なデータをキャプチャするようにします。このデータには、さまざまな粒度のログ、トレース、指標が含まれる場合があります。
- サンプリングと集計を使用する: サンプリングと集計の手法を使用して、詳細なデータの必要性と費用の考慮事項のバランスを取る。このアプローチでは、過度のストレージ費用を発生させることなく、代表的なデータを収集できます。
- モニタリング ツールとサービスの料金モデルを理解する: さまざまなモニタリング ソリューションを評価し、プロジェクトの特定のニーズ、予算、使用パターンに合ったオプションを選択します。選択する際は、データ量、保持要件、必要な機能などの要素を考慮してください。
- モニタリング構成を定期的に確認する: 不要な指標やログを削除して、過剰なデータの収集を回避します。
ロールに合わせてデータ収集を調整し、ロール固有の保持ポリシーを設定する
さまざまな役割の特定のデータニーズを考慮します。たとえば、デベロッパーは主にトレースやアプリケーション レベルのログにアクセスする必要がありますが、IT 管理者はシステムログとインフラストラクチャ指標に重点を置く場合があります。データ収集を調整することで、不要なストレージ費用を削減し、無関係な情報でユーザーを圧倒することを回避できます。
また、各ロールのニーズと規制要件に基づいて保持ポリシーを定義することもできます。たとえば、デベロッパーは短い期間の詳細なログにアクセスする必要がある一方で、財務アナリストは長期のデータが必要になる場合があります。
規制要件とコンプライアンス要件を考慮する
特定の業界では、規制要件によりデータの保持が義務付けられています。法的および財務的なリスクを回避するには、モニタリングとデータ保持の方法が関連する規制に準拠していることを確認する必要があります。同時に、費用対効果を維持する必要があります。以下の推奨事項を参考にしてください。
- 業界または地域に固有のデータ保持要件を特定し、モニタリング戦略がそれらの要件を満たしていることを確認します。
- 適切なデータ アーカイブと取得メカニズムを実装して、ストレージ コストを最小限に抑えながら、監査とコンプライアンスのニーズを満たします。
スマート アラートを実装する
アラートを使用すると、問題をタイムリーに検出して解決できます。ただし、最新情報を常に把握できるアプローチと、通知で圧倒されるアプローチとのバランスを取る必要があります。インテリジェントなアラート システムを設計することで、ビジネスへの影響が大きい重要な問題を優先できます。以下の推奨事項を検討してください。
- お客様に影響する問題を優先する: ウェブサイトの停止、レスポンス時間の遅延、トランザクションの失敗など、カスタマー エクスペリエンスに直接影響する問題に対して迅速にトリガーされるアラートを設計します。
- 一時的な問題に合わせて調整する: 適切なしきい値と遅延メカニズムを使用して、一時的な問題や、お客様に影響しない自己修復システムの問題に関する不要なアラートを回避します。
- アラートの重大度をカスタマイズする: 重大なアラートと重大でないアラートを区別することで、最も緊急の問題にすぐに対応できるようにします。
- 通知チャンネルを賢く使用する: アラートの重大度と緊急性に基づいて、アラート通知に適したチャンネル(メール、SMS、ページング)を選択します。