このページは Cloud Translation API によって翻訳されました。

Well-Architected Framework: オペレーショナルエクセレンスの柱

Last reviewed 2025-02-14 UTC

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱には、 Google Cloudでワークロードを効率的に運用するための推奨事項が記載されています。クラウドでのオペレーショナルエクセレンスには、価値、パフォーマンス、セキュリティ、信頼性を提供するクラウドソリューションの設計、実装、管理が含まれます。この柱の推奨事項は、クラウドのダイナミックで絶え間なく進化するニーズを満たすために、ワークロードを継続的に改善して適応させるうえで役立ちます。

オペレーショナルエクセレンスの柱は、次の対象者に関連しています。

マネージャーとリーダー: クラウドでのオペレーショナルエクセレンスを確立して維持し、クラウドへの投資が価値をもたらし、ビジネスの目標をサポートすることを保証するフレームワーク。
クラウド運用チーム: インシデントや問題の管理、容量の計画、パフォーマンスの最適化、変更の管理に関するガイダンス。
サイト信頼性エンジニア（SRE）: モニタリング、インシデント対応、自動化など、サービス信頼性の向上に役立つベストプラクティス。
クラウドアーキテクトとエンジニア: 運用要件と設計・実装フェーズのベストプラクティス。運用効率とスケーラビリティを重視したソリューションの設計に役立ちます。
DevOps チーム: 自動化、CI / CD パイプライン、チェンジマネジメントに関するガイダンス。より迅速で信頼性の高いソフトウェアデリバリーを実現します。

オペレーショナルエクセレンスを実現するには、自動化、オーケストレーション、データドリブンの分析情報を活用する必要があります。自動化によりトイル（繰り返し行われる手作業）を排除できます。また、繰り返し行うタスクの周囲のガードレールを簡素化して構築します。オーケストレーションは、複雑なプロセスを連携させるうえで役立ちます。データドリブンの分析情報により、エビデンスに基づいた意思決定が可能になります。これらのプラクティスを使用すると、クラウド運用の最適化、コストの削減、サービスの可用性の向上、セキュリティの強化を実現できます。

クラウドでのオペレーショナルエクセレンスは、クラウド運用の技術的な習熟にとどまりません。これには、継続的な学習と試験運用を促進する文化的な変化が含まれます。チームには、イノベーションを起こしてイテレーションし、成長志向を採用する権限が必要です。オペレーショナルエクセレンスの文化は、個人がアイデアを共有し、前提に疑問を投げかけ、改善を推進することを奨励するコラボレーション環境を育みます。

AI ワークロードと ML ワークロードに固有のオペレーショナルエクセレンスの原則と推奨事項については、Well-Architected Framework の AI と ML の視点: 運用の卓越性をご覧ください。

基本原則

Well-Architected Framework のオペレーショナルエクセレンスの柱の推奨事項は、次の基本原則にマッピングされています。

CloudOps を使用して運用の準備とパフォーマンスを確保する: サービスレベル目標（SLO）を定義し、包括的なモニタリング、パフォーマンステスト、容量計画を実行することで、クラウドソリューションが運用要件とパフォーマンス要件を満たしていることを確認します。
インシデントや問題を管理する: 包括的なオブザーバビリティ、明確なインシデント対応手順、徹底した振り返り、予防措置を通じて、クラウドインシデントの影響を最小限に抑え、再発を防ぎます。
クラウドリソースを管理して最適化する: 適切なサイズ設定、自動スケーリングなどの戦略や、効果的な費用モニタリングツールを使用して、クラウドリソースを最適化して管理します。
変更の自動化と管理: プロセスを自動化し、チェンジマネジメントを効率化して、手作業の負担を軽減します。
継続的な改善とイノベーション: 競争力を維持するために、継続的な機能強化と新しいソリューションの導入に重点を置きます。

寄稿者

著者:

Ryan Cox | プリンシパルアーキテクト
Hadrian Knotz | エンタープライズアーキテクト

その他の寄稿者:

Daniel Lees | クラウドセキュリティアーキテクト
Filipe Gracio 博士 | カスタマーエンジニア
Gary Harmson | プリンシパルアーキテクト
Jose Andrade | エンタープライズインフラストラクチャカスタマーエンジニア
Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー
Nicolas Pintaux | カスタマーエンジニア、アプリケーションモダナイゼーションスペシャリスト
Radhika Kanakam | シニアプログラムマネージャー、Cloud GTM
Samantha He | テクニカルライター
Zach Seils | ネットワーキングスペシャリスト
Wade Holmes | グローバルソリューションディレクター

CloudOps を使用して運用の準備とパフォーマンスを確保する

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱におけるこの原則は、クラウドワークロードの運用準備とパフォーマンスを確保するうえで役立ちます。サービスパフォーマンスに関する明確な期待とコミットメントの確立、堅牢なモニタリングとアラートの実装、パフォーマンステストの実施、容量ニーズの事前計画を重視します。

原則の概要

組織によって運用準備の解釈が異なる場合があります。運用準備とは、組織が Google Cloudでワークロードを正常に運用するための準備を行うことです。複雑な多層クラウドワークロードの運用を準備するには、本番環境稼働とday-2の運用の両方について慎重に計画する必要があります。このようなオペレーションは、多くの場合、CloudOps と呼ばれます。CloudOps

運用準備の重点分野

運用の準備状況は、4 つの重点分野で構成されています。各重点分野は、 Google Cloudで複雑なアプリケーションや環境を運用するための準備に必要な一連のアクティビティとコンポーネントで構成されています。次の表に、各フォーカスエリアのコンポーネントとアクティビティを示します。

運用準備の重点分野	アクティビティとコンポーネント
従業員	クラウドリソースを管理および運用するチームの明確な役割と責任を定義する。チームメンバーが適切なスキルを持っていることを確認する。学習プログラムの開発。明確なチーム構造を確立する。必要な人材の採用。
プロセス	オブザーバビリティ。サービス中断の管理。クラウド配信。コアクラウドオペレーション。
ツール	CloudOps プロセスをサポートするために必要なツール。
ガバナンス	サービスレベルとレポート。クラウドの財務。クラウド運用モデル。アーキテクチャのレビューとガバナンスボード。クラウドアーキテクチャとコンプライアンス。

推奨事項

CloudOps を使用して運用の準備とパフォーマンスを確保するには、次のセクションの推奨事項を検討してください。このドキュメントの各推奨事項は、運用準備の重点分野の 1 つ以上に関連しています。

SLO と SLA を定義する

クラウドオペレーションチームの主な責任は、すべての重要なワークロードのサービスレベル目標（SLO）とサービスレベル契約（SLA）を定義することです。この推奨事項は、ガバナンスの運用準備の重点分野に関連しています。

SLO は、具体的、測定可能、達成可能、関連性があり、期限がある（SMART）ものでなければなりません。また、目標とするサービスレベルとパフォーマンスを反映している必要があります。

具体的: 必要なサービスとパフォーマンスのレベルを明確に示します。
測定可能（Measurable）: 定量化可能で追跡可能。
達成可能: 組織の能力とリソースの範囲内で達成可能である。
関連性: ビジネス目標と優先事項に沿っている。
期限がある: 測定と評価のタイムフレームが定義されている。

たとえば、ウェブアプリケーションの SLO は「99.9% の可用性」や「平均レスポンス時間が 200 ミリ秒未満」などになります。このような SLO は、ウェブアプリケーションに必要なサービスとパフォーマンスのレベルを明確に定義し、SLO は時間の経過とともに測定および追跡できます。

SLA では、サービスの可用性、パフォーマンス、サポートに関するお客様へのコミットメントと、不履行に対する罰則や救済策が規定されています。SLA には、提供されるサービス、期待されるサービスレベル、サービスプロバイダと顧客の責任、不遵守に対する罰則または救済策に関する具体的な詳細を含める必要があります。SLA は、両者間の契約条項として機能し、クラウドサービスに関連する期待と義務を両者が明確に理解できるようにします。

Google Cloud は、SLO の定義と追跡に役立つ Cloud Monitoring やサービスレベル指標（SLI）などのツールを提供します。Cloud Monitoring は、包括的なモニタリングとオブザーバビリティ機能を提供します。これにより、組織はクラウドベースのアプリケーションとサービスの可用性、パフォーマンス、レイテンシに関連する指標を収集して分析できます。SLI は、SLO を測定して経時的に追跡するために使用できる特定の指標です。これらのツールを活用することで、クラウドサービスを効果的にモニタリングして管理し、SLO と SLA を満たすことができます。

すべての重要なクラウドサービスに対して SLO と SLA を明確に定義して伝達することで、デプロイされたアプリケーションとサービスの信頼性とパフォーマンスを確保できます。

包括的なオブザーバビリティを実装する

クラウド環境の健全性とパフォーマンスをリアルタイムで把握するには、Google Cloud Observability ツールとサードパーティソリューションを組み合わせて使用することをおすすめします。この推奨事項は、運用の準備の重点分野（プロセスとツール）に関連しています。

オブザーバビリティソリューションを組み合わせて実装すると、クラウドインフラストラクチャとアプリケーションのさまざまな側面をカバーする包括的なオブザーバビリティ戦略を立てることができます。Google Cloud Observability は、さまざまなGoogle Cloud サービス、アプリケーション、外部ソースから指標、ログ、トレースを収集、分析、可視化するための統合プラットフォームです。Cloud Monitoring を使用すると、リソースの使用率、パフォーマンス特性、リソースの全体的な健全性に関する分析情報を取得できます。

包括的なモニタリングを確保するには、CPU 使用率、メモリ使用量、ネットワークトラフィック、ディスク I/O、アプリケーションの応答時間など、システムの健全性指標に沿った重要な指標をモニタリングします。ビジネス固有の指標も検討する必要があります。これらの指標を追跡することで、潜在的なボトルネック、パフォーマンスの問題、リソース制約を特定できます。また、潜在的な問題や異常について、関連チームに事前に通知するアラートを設定することもできます。

モニタリング機能をさらに強化するには、サードパーティソリューションを Google Cloud Observability と統合します。これらのソリューションは、高度な分析、ML を活用した異常検出、インシデント管理機能などの追加機能を提供できます。Google Cloud Observability ツールとサードパーティソリューションを組み合わせることで、特定のニーズに合わせてカスタマイズ可能な堅牢なモニタリングエコシステムを構築できます。この組み合わせのアプローチを使用することで、問題を事前に特定して対処し、リソース使用率を最適化し、クラウドアプリケーションとサービスの全体的な信頼性と可用性を確保できます。

パフォーマンステストと負荷テストを実装する

定期的なパフォーマンステストを実施すると、クラウドベースのアプリケーションとインフラストラクチャがピーク時の負荷を処理し、最適なパフォーマンスを維持できることを確認できます。負荷テストでは、現実的なトラフィックパターンをシミュレートします。ストレステストでは、システムを限界までプッシュして、潜在的なボトルネックとパフォーマンスの制限を特定します。この推奨事項は、運用の準備の重点分野（プロセスとツール）に関連しています。

Cloud Load Balancing や負荷テストサービスなどのツールを使用すると、実際のトラフィックパターンをシミュレートして、アプリケーションのストレステストを行うことができます。これらのツールは、さまざまな負荷条件でのシステムの動作に関する貴重な分析情報を提供し、最適化が必要な領域を特定するのに役立ちます。

パフォーマンステストの結果に基づいて、クラウドインフラストラクチャとアプリケーションを最適化して、最適なパフォーマンスとスケーラビリティを実現できます。この最適化には、リソース割り当ての調整、構成のチューニング、キャッシュメカニズムの実装が含まれる場合があります。

たとえば、トラフィックが多い期間にアプリケーションの速度が低下していることがわかった場合は、アプリケーションに割り当てられている仮想マシンまたはコンテナの数を増やす必要があるかもしれません。また、パフォーマンスを改善するために、ウェブサーバーやデータベースの構成を調整する必要がある場合もあります。

パフォーマンステストを定期的に実施し、必要な最適化を実装することで、クラウドベースのアプリケーションとインフラストラクチャが常に最高のパフォーマンスで動作し、ユーザーにシームレスで応答性の高いエクスペリエンスを提供できます。そうすることで、競争優位性を維持し、顧客との信頼関係を築くことができます。

容量を計画して管理する

将来の容量ニーズ（オーガニックとインオーガニックの両方）を事前に計画することで、クラウドベースのシステムの円滑な運用とスケーラビリティを確保できます。この推奨事項は、運用準備の重点分野のプロセスに関連しています。

将来の容量を計画するには、コンピューティングインスタンス、ストレージ、API リクエストなどのさまざまなリソースの割り当てを理解して管理する必要があります。過去の使用パターン、成長予測、ビジネス要件を分析することで、将来の容量要件を正確に予測できます。Cloud Monitoring や BigQuery などのツールを使用して、使用状況データを収集して分析し、傾向を特定して将来の需要を予測できます。

過去の使用パターンは、リソース使用率の推移に関する貴重な分析情報を提供します。CPU 使用率、メモリ使用量、ネットワークトラフィックなどの指標を調べることで、需要が高い期間と潜在的なボトルネックを特定できます。また、ユーザーベースの拡大、新製品や新機能、マーケティングキャンペーンなどの要因に基づいて成長予測を行うことで、将来の容量ニーズを推定することもできます。容量のニーズを評価する際は、SLA やパフォーマンス目標などのビジネス要件も考慮する必要があります。

ワークロードのリソースサイズを決定する際は、リソースの使用率に影響する可能性のある要因を考慮してください。年末商戦や四半期末セールなどの季節変動により、一時的に需要が急増することがあります。商品のリリースやマーケティングキャンペーンなどの計画されたイベントも、トラフィックを大幅に増加させる可能性があります。プライマリシステムと障害復旧（DR）システムが予期しない需要の急増に対応できるように、自然災害やサイバー攻撃などの障害発生時にグレースフルフェイルオーバーをサポートできる容量を計画します。

自動スケーリングは、ワークロードの変動に基づいてクラウドリソースを動的に調整するための重要な戦略です。自動スケーリングポリシーを使用すると、需要の変化に応じてコンピューティングインスタンス、ストレージ、その他のリソースを自動的にスケーリングできます。これにより、ピーク時のパフォーマンスを最適化し、リソース使用率が低いときのコストを最小限に抑えることができます。自動スケーリングアルゴリズムは、CPU 使用率、メモリ使用量、キューの深さなどの指標を使用して、リソースをスケーリングするタイミングを判断します。

継続的にモニタリングして最適化する

クラウドワークロードを管理して最適化するには、パフォーマンス指標を継続的にモニタリングして分析するプロセスを確立する必要があります。この推奨事項は、プロセスとツールという運用準備の重点分野に関連しています。

継続的なモニタリングと分析のプロセスを確立するには、クラウド環境のさまざまな側面に関連するデータを追跡、収集、評価します。このデータを使用すると、改善の余地がある領域を事前に特定し、リソース使用率を最適化して、クラウドインフラストラクチャがパフォーマンスの期待値を常に満たすか、それを超えるようにすることができます。

パフォーマンスモニタリングの重要な側面は、ログとトレースを定期的に確認することです。ログは、システムイベント、エラー、警告に関する貴重な分析情報を提供します。トレースは、アプリケーションを通過するリクエストのフローに関する詳細情報を提供します。ログとトレースを分析することで、潜在的な問題を特定し、問題の根本原因を特定し、さまざまな条件下でのアプリケーションの動作をより深く理解できます。サービス間の往復時間などの指標は、ワークロードのボトルネックを特定して理解するのに役立ちます。

また、パフォーマンスチューニング手法を使用すると、アプリケーションの応答時間と全体的な効率を大幅に向上させることができます。使用できる手法の例を次に示します。

キャッシュ保存: 頻繁にアクセスされるデータをメモリに保存して、データベースクエリや API 呼び出しの繰り返しを減らします。
データベースの最適化: インデックス作成やクエリの最適化などの手法を使用して、データベースオペレーションのパフォーマンスを向上させます。
コードプロファイリング: リソースを過剰に消費したり、パフォーマンスの問題を引き起こしたりするコードの領域を特定します。

これらの手法を適用することで、アプリケーションを最適化し、クラウドで効率的に実行できます。

インシデントと問題の管理

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱におけるこの原則では、クラウドワークロードに関連するインシデントと問題を管理するうえで役に立つ推奨事項が示されています。これには、包括的なモニタリングとオブザーバビリティの実装、明確なインシデント対応手順の確立、徹底した根本原因分析の実施、予防措置の実装が含まれます。この原則で説明するトピックの多くは、信頼性の柱で詳しく説明しています。

原則の概要

インシデント管理と問題管理は、機能的な運用環境の重要なコンポーネントです。重大度の異なるインシデントへの対応方法、分類方法、解決方法は、運用に大きな影響を与える可能性があります。また、信頼性とパフォーマンスを最適化するために、積極的に継続的に調整を行う必要があります。インシデント管理と問題管理の効率的なプロセスは、次の基本要素に基づいています。

継続的なモニタリング: 問題を迅速に特定して解決します。
自動化: タスクを合理化し、効率を向上させます。
オーケストレーション: クラウドリソースを効果的に調整して管理します。
データドリブンな分析情報: クラウドオペレーションを最適化し、情報に基づいた意思決定を行います。

これらの要素は、幅広い課題や中断に対応できる復元性に優れたクラウド環境の構築に役立ちます。これらの要素は、コストのかかるインシデントやダウンタイムのリスクを軽減し、ビジネスの俊敏性と成功を高めるうえでも役立ちます。これらの基本要素は、運用準備の 4 つの重点分野（人材、プロセス、ツール、ガバナンス）に分散しています。

推奨事項

インシデントと問題を効果的に管理するには、次のセクションの推奨事項を検討してください。このドキュメントの各推奨事項は、運用準備の重点分野の 1 つ以上に関連しています。

明確なインシデント対応手順を確立する

インシデントに効果的かつ協調して対応するには、明確な役割と責任が不可欠です。また、明確なコミュニケーションプロトコルとエスカレーションパスは、インシデント発生時に情報が迅速かつ効果的に共有されるようにするうえで役立ちます。この推奨事項は、ワークフォース、プロセス、ツールという運用準備の重点分野に関連しています。

インシデント対応手順を確立するには、インシデントコマンダー、調査担当者、コミュニケーション担当者、技術専門家など、各チームメンバーの役割と期待値を定義する必要があります。コミュニケーションとエスカレーションのパスを確立するには、重要な連絡先を特定し、コミュニケーションチャネルを設定し、必要に応じてインシデントを上位の管理レベルにエスカレーションするプロセスを定義します。定期的なトレーニングと準備は、チームがインシデントに効果的に対応するための知識とスキルを身につけるのに役立ちます。

ランブックまたはハンドブックにインシデント対応手順を文書化することで、インシデント発生時にチームが従う標準化されたリファレンスガイドを提供できます。ランブックでは、インシデント対応プロセスの各段階（コミュニケーション、トリアージ、調査、解決など）で実施する手順を概説する必要があります。また、関連するツールやリソースに関する情報、重要な担当者の連絡先情報も記載する必要があります。ランブックが最新かつ有効な状態を維持できるように、定期的に見直して更新する必要があります。

インシデント管理を一元化する

インシデントのライフサイクル全体で効果的に追跡して管理するには、一元化されたインシデント管理システムの使用を検討してください。この推奨事項は、プロセスとツールという運用準備の重点分野に関連しています。

一元化されたインシデント管理システムには、次のような利点があります。

可視性の向上: インシデント関連のすべてのデータを 1 か所に統合することで、チームがコンテキストをさまざまなチャネルやシステムで検索する必要がなくなります。このアプローチにより、時間を節約し、混乱を減らすことができます。また、関係者はステータス、影響、進捗状況など、インシデントの包括的なビューを確認できます。
調整とコラボレーションの改善: 一元化されたシステムにより、コミュニケーションとタスク管理のための統合プラットフォームが提供されます。インシデント対応に関与するさまざまな部門や機能間のシームレスな連携を促進します。このアプローチにより、全員が最新の情報にアクセスできるようになり、誤解や認識のずれのリスクが軽減されます。
アカウンタビリティと所有権の強化: インシデント管理システムを一元化することで、組織は特定の個人またはチームにタスクを割り当て、責任を明確に定義して追跡できます。このアプローチでは、チームメンバーが自分の進捗状況と貢献度を簡単にモニタリングできるため、説明責任が促進され、問題解決が積極的に行われるようになります。

一元化されたインシデント管理システムは、インシデントの追跡、タスクの割り当て、コミュニケーションの管理のための堅牢な機能を提供する必要があります。これらの機能を使用すると、ワークフローのカスタマイズ、優先度の設定、モニタリングツールやチケット発行システムなどの他のシステムとの統合を行うことができます。

一元化されたインシデント管理システムを実装することで、組織のインシデント対応プロセスを最適化し、コラボレーションを改善し、可視性を高めることができます。これにより、インシデントの解決時間が短縮され、ダウンタイムが短縮され、顧客満足度が向上します。また、過去のインシデントから学び、改善すべき領域を特定できるため、継続的な改善の文化を育むこともできます。

インシデント後の徹底的なレビューを実施する

インシデントが発生したら、根本原因、要因、教訓を特定するために、事後分析とも呼ばれる詳細なインシデント後のレビュー（PIR）を実施する必要があります。この徹底的なレビューは、今後同様のインシデントを防ぐのに役立ちます。この推奨事項は、運用準備の重点分野（プロセスとガバナンス）に関連しています。

PIR プロセスには、インシデントのさまざまな側面に関する専門知識を持つ学際的なチームが関与する必要があります。チームは、インタビュー、ドキュメントの確認、サイトの検査を通じて、関連するすべての情報を収集する必要があります。インシデントにつながった一連の行動を特定するために、イベントのタイムラインを作成する必要があります。

チームは必要な情報を収集した後、根本原因分析を実施して、インシデントにつながった要因を特定する必要があります。この分析では、インシデントの直接的な原因と、インシデントの原因となったシステム上の問題を特定する必要があります。

PIR チームは、根本原因を特定するとともに、インシデントの原因となった可能性のあるその他の要因も特定する必要があります。これらの要因には、人的ミス、機器の故障、組織的な要因（コミュニケーションの不具合やトレーニングの不足など）が含まれます。

PIR レポートには、イベントのタイムライン、根本原因分析、推奨されるアクションなど、調査結果を記録する必要があります。このレポートは、是正措置を実施し、再発を防止するための貴重なリソースとなります。レポートは、関連するすべての関係者と共有し、安全に関するトレーニングと手順の開発に使用する必要があります。

PIR プロセスを成功させるには、組織は責任の所在を特定するのではなく、学習と改善に重点を置いた非難のない文化を育む必要があります。このような文化により、個人は報復を恐れることなくインシデントを報告できるようになり、システム上の問題に対処して有意義な改善を行うことができます。

徹底的な PIR を実施し、調査結果に基づいて是正措置を実施することで、今後同様のインシデントが発生するリスクを大幅に軽減できます。インシデントの調査と防止に積極的に取り組むことで、関係者全員にとってより安全で効率的な作業環境を構築できます。

ナレッジベースを維持する

既知の問題、解決策、トラブルシューティングガイドのナレッジベースは、インシデントの管理と解決に不可欠です。チームメンバーはナレッジベースを使用して、一般的な問題をすばやく特定して解決できます。ナレッジベースを実装すると、エスカレーションの必要性が減り、全体的な効率が向上します。この推奨事項は、ワークフォースとプロセスという運用準備の重点分野に関連しています。

ナレッジベースの主なメリットは、チームが過去の経験から学び、同じ間違いを繰り返さないようにできることです。既知の問題の解決策をキャプチャして共有することで、チームは一般的な問題の解決方法とインシデント管理のベストプラクティスについて共通の理解を深めることができます。ナレッジベースを使用すると、時間と労力を節約でき、プロセスを標準化してインシデント解決の一貫性を確保できます。

ナレッジベースは、インシデントの解決時間を短縮するだけでなく、チーム間の知識の共有とコラボレーションを促進します。情報の一元的なリポジトリにより、チームはナレッジベースに簡単にアクセスして貢献できるため、継続的な学習と改善の文化が促進されます。この文化により、チームは専門知識と経験を共有し、より包括的で価値のあるナレッジベースを構築できます。

ナレッジベースを効果的に作成して管理するには、適切なツールとテクノロジーを使用します。Google Workspace などのコラボレーションプラットフォームは、ドキュメントの作成、編集、共有を共同で行うことができるため、この目的に適しています。これらのツールは、バージョン管理と変更の追跡もサポートしているため、ナレッジベースを最新かつ正確な状態に保つことができます。

関連するすべてのチームがナレッジベースに簡単にアクセスできるようにします。ナレッジベースを既存のインシデント管理システムと統合するか、専用のポータルまたはイントラネットサイトを提供することで、これを実現できます。すぐに利用できるナレッジベースがあれば、チームはインシデントを効率的に解決するために必要な情報にすばやくアクセスできます。この可用性により、ダウンタイムを短縮し、ビジネスオペレーションへの影響を最小限に抑えることができます。

ナレッジベースを定期的に見直し、更新して、関連性と有用性を維持します。インシデントレポートをモニタリングし、一般的な問題と傾向を特定して、新しい解決策とトラブルシューティングガイドをナレッジベースに組み込みます。最新のナレッジベースは、チームがインシデントをより迅速かつ効果的に解決するのに役立ちます。

インシデント対応を自動化する

自動化により、インシデント対応と修復のプロセスを効率化できます。これにより、セキュリティ侵害やシステム障害に迅速かつ効率的に対応できます。Cloud Run functions や Cloud Run などの Google Cloud プロダクトを使用すると、通常は手動で時間がかかるさまざまなタスクを自動化できます。この推奨事項は、運用の準備の重点分野（プロセスとツール）に関連しています。

インシデント対応の自動化には、次の利点があります。

インシデントの検出と解決時間の短縮: 自動化ツールは、システムとアプリケーションを継続的にモニタリングし、不審なアクティビティや異常なアクティビティをリアルタイムで検出し、関係者に通知したり、介入なしで対応したりできます。この自動化により、潜在的な脅威や問題が重大なインシデントに発展する前に特定できます。インシデントが検出されると、自動化ツールによって、影響を受けるシステムの隔離、悪意のあるファイルの隔離、変更のロールバックによるシステムの既知の良好な状態への復元など、事前に定義された修復アクションがトリガーされます。
セキュリティチームと運用チームの負担を軽減: インシデント対応の自動化により、セキュリティチームと運用チームはより戦略的なタスクに集中できます。診断情報の収集やアラートのトリガーなど、ルーチンで反復的なタスクを自動化することで、組織はより複雑で重要なインシデントに対処するために人員を解放できます。この自動化により、インシデント対応の全体的な有効性と効率が向上します。
修復プロセスの整合性と精度が向上する: 自動化されたツールにより、修復アクションが影響を受けるすべてのシステムに均一に適用され、人的エラーや不整合のリスクを最小限に抑えることができます。この修復プロセスの標準化により、インシデントがユーザーやビジネスに与える影響を最小限に抑えることができます。

クラウドリソースの管理と最適化

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱におけるこの原則では、クラウドワークロードで使用されるリソースを管理して最適化するうえで役に立つ推奨事項が示されています。これには、実際の使用量と需要に基づくリソースサイズの適正化、動的リソース割り当てでの自動スケーリングの使用、費用最適化戦略の実装、リソース使用率と費用の定期的な確認が含まれます。この原則で説明するトピックの多くは、費用最適化の柱で詳しく説明しています。

原則の概要

クラウドリソースの管理と最適化は、クラウド費用、リソース使用量、インフラストラクチャの効率を最適化するうえで重要な役割を果たします。これには、クラウド費用から得られる価値と収益を最大化することを目的としたさまざまな戦略とベストプラクティスが含まれています。

この柱の最適化は、費用削減にとどまりません。次の目標を重視します。

効率性: 自動化とデータ分析を使用して、パフォーマンスを最大化し、コストを削減します。
パフォーマンス: リソースを簡単にスケーリングして、変動する需要に対応し、最適な結果を提供します。
スケーラビリティ: 急速な成長と多様なワークロードに対応するために、インフラストラクチャとプロセスを適応させること。

これらの目標に焦点を当てることで、費用と機能のバランスが取れます。リソースのプロビジョニング、スケーリング、移行について、十分な情報に基づいて意思決定を行うことができます。また、リソース消費パターンの貴重な分析情報を取得できるため、潜在的な問題を事前に特定して、エスカレーションする前に解決できます。

推奨事項

リソースを管理して最適化するには、以下のセクションの推奨事項を検討してください。このドキュメントの各推奨事項は、運用準備の重点分野の 1 つ以上に関連しています。

リソースのサイズを適正にする

効率的なクラウドリソース管理には、リソース使用率を継続的にモニタリングし、実際のリソース需要に合わせてリソース割り当てを調整することが不可欠です。リソースを過剰にプロビジョニングすると、不要な費用が発生する可能性があります。一方、リソースのプロビジョニングが不足すると、パフォーマンスのボトルネックが発生し、アプリケーションのパフォーマンスとユーザーエクスペリエンスに影響する可能性があります。最適なバランスを実現するには、クラウドリソースの適切なサイジングに積極的に取り組む必要があります。この推奨事項は、ガバナンスの運用準備の重点分野に関連しています。

Cloud Monitoring と Recommender は、規模の適正化の機会を特定する際に役立ちます。Cloud Monitoring は、リソース使用率の指標をリアルタイムで可視化します。この可視性により、リソース使用パターンの追跡と、潜在的な非効率性の特定が可能になります。Recommender は、リソース使用率データを分析して、リソース割り当てを最適化するためのインテリジェントな推奨事項を作成します。これらのツールを使用すると、リソース使用量に関する分析情報を取得し、リソースの適切なサイズ設定について十分な情報に基づいて意思決定を行うことができます。

Cloud Monitoring と Recommender に加えて、カスタム指標を使用して自動的な適切なサイズ設定アクションをトリガーすることも検討してください。カスタム指標を使用すると、アプリケーションとワークロードに関連する特定のリソース使用率の指標を追跡できます。事前定義されたしきい値に達したときに管理者に通知するアラートを構成することもできます。管理者は、リソース割り当てを調整するために必要なアクションを実行できます。この事前対応型のアプローチにより、リソースがタイムリーにスケーリングされ、クラウド費用を最適化し、パフォーマンスの問題を防ぐことができます。

自動スケーリングを使用する

コンピューティングリソースなどのリソースを自動スケーリングすると、クラウドベースのアプリケーションの最適なパフォーマンスと費用対効果を確保できます。自動スケーリングを使用すると、ワークロードの変動に基づいてリソースの容量を動的に調整できるため、必要なときに必要なリソースを確保し、オーバープロビジョニングや不要な費用を回避できます。この推奨事項は、運用準備の重点分野のプロセスに関連しています。

さまざまなアプリケーションやワークロードの多様なニーズを満たすために、Google Cloud には次のようなさまざまな自動スケーリングオプションが用意されています。

Compute Engine マネージドインスタンスグループ（MIG）は、単一のエンティティとして管理およびスケーリングされる VM のグループです。MIG を使用すると、グループ内で維持する VM の最小数と最大数、自動スケーリングをトリガーする条件を指定する自動スケーリングポリシーを定義できます。たとえば、CPU 使用率が特定のしきい値に達したときに MIG に VM を追加し、使用率が別のしきい値を下回ったときに VM を削除するようにポリシーを構成できます。
Google Kubernetes Engine（GKE）の自動スケーリングは、アプリケーションのニーズに合わせてクラスタリソースを動的に調整します。次のツールが用意されています。
- クラスタオートスケーラーは、Pod のリソース需要に基づいてノードを追加または削除します。
- 水平 Pod オートスケーラーは、CPU、メモリ、またはカスタム指標に基づいて Pod レプリカの数を変更します。
- 垂直 Pod 自動スケーリングは、使用パターンに基づいて Pod リソースのリクエストと上限を微調整します。
- ノードの自動プロビジョニングでは、ワークロードに最適なノードプールが自動的に作成されます。
これらのツールは連携して、リソース使用量の最適化、アプリケーションパフォーマンスの確保、クラスタ管理の簡素化を実現します。
Cloud Run は、インフラストラクチャを管理することなくコードを実行できるサーバーレスプラットフォームです。Cloud Run には、受信トラフィックに基づいてインスタンス数を自動的に調整する自動スケーリングが組み込まれています。トラフィック量が増加すると、Cloud Run は負荷を処理するためにインスタンスの数をスケールアップします。トラフィックが減少すると、Cloud Run はインスタンスの数をスケールダウンして費用を削減します。

これらの自動スケーリングオプションを使用すると、オーバープロビジョニングと不要な費用を回避しながら、クラウドベースのアプリケーションにさまざまなワークロードを処理するために必要なリソースを確保できます。自動スケーリングを使用すると、パフォーマンスの向上、費用の削減、クラウドリソースの効率的な使用につながります。

費用最適化戦略を活用する

クラウド費用を最適化すると、組織の IT 予算を効果的に管理できます。この推奨事項は、ガバナンスの運用準備の重点分野に関連しています。

Google Cloud には、クラウド費用を最適化するのに役立つさまざまなツールと手法が用意されています。これらのツールと手法を使用することで、クラウド費用を最大限に活用できます。これらのツールと手法は、使用率の低いリソースの特定や、費用対効果の高いインスタンスタイプの推奨など、費用を削減できる領域を特定するのに役立ちます。 Google Cloud クラウド費用の最適化に役立つオプションは次のとおりです。

確約利用割引（CUD）は、一定期間にわたって特定の使用量を確約することで適用される割引です。
Compute Engine の継続利用割引では、サービスの一貫した使用に対して割引が適用されます。
Spot VM を使用すると、通常の VM よりも低コストで未使用の VM 容量を利用できます。

料金モデルは時間の経過とともに変更される可能性があり、既存のオプションよりもパフォーマンスが向上したり、費用が削減されたりする新機能が導入される可能性があります。そのため、料金モデルを定期的に見直し、代替機能の検討をおすすめします。最新の料金モデルと機能を把握することで、クラウドアーキテクチャについて十分な情報に基づいた意思決定を行い、費用を最小限に抑えることができます。

Google Cloudの費用管理ツール（予算やアラートなど）は、クラウドの費用に関する貴重な分析情報を提供します。予算とアラートを使用すると、ユーザーは予算を設定し、予算を超過したときにアラートを受け取ることができます。これらのツールは、クラウドの費用を追跡し、費用を削減できる領域を特定するのに役立ちます。

リソースの使用量と費用を追跡する

タグ付けとラベル付けを使用して、リソースの使用量と費用を追跡できます。プロジェクト、部門、その他の関連するディメンションなどのクラウドリソースにタグとラベルを割り当てることで、リソースを分類して整理できます。これにより、特定のリソースの費用パターンをモニタリングして分析し、使用量の多い領域や費用削減の可能性のある領域を特定できます。この推奨事項は、ガバナンスとツールという運用準備の重点分野に関連しています。

Cloud Billing や費用管理などのツールを使用すると、費用のパターンを包括的に把握できます。これらのツールは、クラウドの使用状況に関する詳細な分析情報を提供し、傾向の特定、費用の予測、十分な情報に基づいた意思決定を可能にします。過去のデータと現在の支出パターンを分析することで、費用最適化の取り組みの重点分野を特定できます。

カスタムダッシュボードとレポートを使用すると、費用データを可視化し、費用の傾向を詳細に把握できます。関連する指標とディメンションでダッシュボードをカスタマイズすると、重要業績評価指標（KPI）をモニタリングし、費用の最適化目標に対する進捗状況を追跡できます。レポートでは、費用データについてより詳細な分析を行うことができます。レポートでは、特定の期間やリソースタイプでデータをフィルタして、クラウド費用に影響する要因を把握できます。

タグ、ラベル、費用分析ツールを定期的に見直して更新し、クラウドの使用状況と費用に関する最新情報を入手できるようにします。情報を常に把握し、費用の事後分析や事前費用のレビューを実施することで、費用の予期しない増加を迅速に特定できます。これにより、クラウドリソースを最適化し、費用を制御するための事前対応型の意思決定を行うことができます。

費用配賦と予算編成を確立する

クラウド費用管理における説明責任と透明性は、リソースの使用率を最適化し、財務管理を確保するために不可欠です。この推奨事項は、ガバナンスの運用準備の重点分野に関連しています。

アカウンタビリティと透明性を確保するには、費用配分とチャージバックの明確なメカニズムが必要です。費用を特定のチーム、プロジェクト、個人に割り当てることで、組織はこれらの各エンティティがクラウドの使用状況を把握できるようにします。この方法により、所有意識が育まれ、責任あるリソース管理が促進されます。また、チャージバックメカニズムにより、組織は内部顧客からクラウド費用を回収し、インセンティブをパフォーマンスに合わせ、財政規律を促進できます。

さまざまなチームやプロジェクトの予算を設定することも、クラウド費用管理の重要な側面です。予算を使用すると、組織は支出の上限を定義し、実際の費用をその上限と比較して追跡できます。このアプローチにより、制御不能な費用の発生を防ぐための事前対応が可能になります。現実的で達成可能な予算を設定することで、クラウドリソースが効率的に使用され、ビジネス目標に沿ったものになるようにできます。予算に対する実際の支出を定期的にモニタリングすることで、差異を特定し、予算超過の可能性に迅速に対処できます。

予算をモニタリングするには、Cloud Billing の予算とアラートなどのツールを使用できます。これらのツールは、クラウドの支出に関するリアルタイムの分析情報を提供し、関係者に費用の超過の可能性を通知します。これらの機能を使用すると、クラウド費用を追跡し、大幅な偏差が発生する前に是正措置を講じることができます。このプロアクティブなアプローチは、予期しない費用を回避し、クラウドリソースが責任を持って使用されるようにするのに役立ちます。

変更の自動化と管理

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱におけるこの原則では、クラウドワークロードの変更を自動化して管理するうえで役に立つ推奨事項が示されています。これには、Infrastructure as Code（IaC）の実装、標準運用手順の確立、構造化された変更管理プロセスの実装、自動化とオーケストレーションの使用が含まれます。

原則の概要

変更管理と自動化は、クラウド環境内でのスムーズで制御された移行を確保するうえで重要な役割を果たします。効果的な変更管理を行うには、中断を最小限に抑え、変更が既存のシステムにシームレスに統合されるようにする戦略とベストプラクティスを使用する必要があります。

効果的な変更管理と自動化には、次の基本要素が含まれます。

変更ガバナンス: 承認プロセスやコミュニケーション計画など、変更管理に関する明確なポリシーと手順を確立します。
リスク評価: 変更に関連する潜在的なリスクを特定し、リスク管理手法を通じて軽減します。
テストと検証: 変更を徹底的にテストして、機能要件とパフォーマンス要件を満たし、潜在的な回帰を軽減します。
制御されたデプロイ: 変更を制御された方法で実装し、ユーザーが新しい環境にシームレスに移行できるようにします。必要に応じてシームレスにロールバックするメカニズムも用意します。

これらの基本要素は、変更の影響を最小限に抑え、変更がビジネスオペレーションにプラスの効果をもたらすようにするのに役立ちます。これらの要素は、プロセス、ツール、ガバナンスの運用準備の重点分野で表されます。

推奨事項

変更を自動化して管理するには、以下のセクションの推奨事項を検討してください。このドキュメントの各推奨事項は、運用準備の重点分野の 1 つ以上に関連しています。

IaC を導入する

Infrastructure as Code（IaC）は、クラウドインフラストラクチャを管理するための革新的なアプローチです。Terraform などのツールを使用して、クラウドインフラストラクチャを宣言的に定義して管理できます。IaC は、一貫性、再現性、変更管理の簡素化を実現するのに役立ちます。また、デプロイの迅速性と信頼性も向上します。この推奨事項は、プロセスとツールという運用準備の重点分野に関連しています。

クラウドデプロイに IaC アプローチを採用する主なメリットは次のとおりです。

人が読めるリソース構成: IaC アプローチを使用すると、JSON や YAML などの人が読める形式でクラウドインフラストラクチャリソースを宣言できます。インフラストラクチャ管理者とオペレーターは、インフラストラクチャを簡単に理解して変更し、他のユーザーと共同作業できます。
一貫性と再現性: IaC により、インフラストラクチャのデプロイの一貫性と再現性が実現します。デプロイを実行するユーザーに関係なく、インフラストラクチャが毎回同じ方法でプロビジョニングおよび構成されるようにすることができます。このアプローチにより、エラーを減らし、インフラストラクチャが常に既知の状態になるようにします。
アカウンタビリティとトラブルシューティングの簡素化: IaC アプローチは、アカウンタビリティの向上と問題のトラブルシューティングの簡素化に役立ちます。IaC コードをバージョン管理システムに保存すると、変更を追跡し、変更がいつ、誰によって行われたかを特定できます。必要に応じて、以前のバージョンに簡単にロールバックできます。

バージョン管理を実装する

Git などのバージョン管理システムは、IaC プロセスの重要なコンポーネントです。堅牢な変更管理とリスク軽減機能を提供するため、社内開発または SaaS ソリューションを通じて広く採用されています。この推奨事項は、運用準備の重点分野（ガバナンスとツール）に関連しています。

IaC コードと構成の変更を追跡することで、バージョン管理によりコードの進化を可視化し、変更の影響を把握して潜在的な問題を特定しやすくなります。可視性が向上することで、同じ IaC プロジェクトに取り組むチームメンバー間のコラボレーションが促進されます。

ほとんどのバージョン管理システムでは、必要に応じて変更を簡単にロールバックできます。この機能は、意図しない結果やエラーのリスクを軽減するのに役立ちます。IaC ワークフローで Git などのツールを使用すると、変更管理プロセスを大幅に改善し、コラボレーションを促進し、リスクを軽減できます。これにより、より効率的で信頼性の高い IaC 実装が可能になります。

CI/CD パイプラインを構築する

継続的インテグレーションと継続的デリバリー（CI/CD）パイプラインは、クラウドアプリケーションの開発とデプロイのプロセスを効率化します。CI/CD パイプラインは、ビルド、テスト、デプロイの各ステージを自動化し、品質管理を改善しながら、より迅速かつ頻繁なリリースを実現します。この推奨事項は、ツールの運用上の準備の重点分野に関連しています。

CI/CD パイプラインにより、コードの変更が中央リポジトリ（通常は Git などのバージョン管理システム）に継続的に統合されます。継続的インテグレーションにより、問題の早期検出と解決が容易になり、バグや互換性の問題が発生する可能性が低くなります。

クラウドアプリケーションの CI/CD パイプラインを作成して管理するには、Cloud Build や Cloud Deploy などのツールを使用できます。

Cloud Build は、デベロッパーが宣言型でビルドステップを定義して実行できるフルマネージドビルドサービスです。一般的なソースコード管理プラットフォームとシームレスに統合され、コードのプッシュや pull リクエストなどのイベントによってトリガーできます。
Cloud Deploy は、テスト、ステージング、本番環境などのさまざまな環境へのアプリケーションのデプロイプロセスを自動化するサーバーレスデプロイサービスです。Blue/Green デプロイ、トラフィック分割、ロールバック機能などの機能が提供されるため、アプリケーションデプロイの管理とモニタリングが容易になります。

CI/CD パイプラインをバージョン管理システムとテストフレームワークに統合すると、クラウドアプリケーションの品質と信頼性を確保できます。CI/CD プロセスの一部として自動テストを実行することで、開発チームはコードが本番環境にデプロイされる前に問題を迅速に特定して修正できます。この統合により、クラウドアプリケーションの全体的な安定性とパフォーマンスが向上します。

構成管理ツールを使用する

Puppet、Chef、Ansible、VM Manager などのツールを使用すると、クラウドリソースの構成と管理を自動化できます。これらのツールを使用すると、クラウド環境全体でリソースの一貫性とコンプライアンスを確保できます。この推奨事項は、運用準備のツール分野に関連しています。

クラウドリソースの構成と管理を自動化すると、次のメリットがあります。

手動エラーのリスクを大幅に軽減: 手動プロセスでは、人為的ミスによる間違いが発生する可能性が高くなります。構成管理ツールは、プロセスを自動化することでこのリスクを軽減します。これにより、すべてのクラウドリソースに構成が一貫して正確に適用されます。この自動化により、クラウド環境の信頼性と安定性が向上します。
運用効率の向上: 繰り返し行うタスクを自動化することで、IT スタッフがより戦略的な取り組みに集中できるようになります。この自動化により、生産性の向上、コスト削減、変化するビジネスニーズへの対応力の強化につながります。
複雑なクラウドインフラストラクチャの管理の簡素化: クラウド環境の規模と複雑さが増すにつれて、リソースの管理がますます困難になる可能性があります。構成管理ツールは、クラウドリソースを管理するための集中型プラットフォームを提供します。これらのツールを使用すると、構成の追跡、問題の特定、変更の実装が容易になります。これらのツールを使用すると、クラウド環境の可視性、制御性、セキュリティが向上します。

テストの自動化

自動テストを CI/CD パイプラインに統合すると、クラウドアプリケーションの品質と信頼性を確保できます。デプロイ前に変更を検証することで、エラーや回帰のリスクを大幅に軽減し、より安定した堅牢なソフトウェアシステムを実現できます。この推奨事項は、プロセスとツールという運用準備の重点分野に関連しています。

CI/CD パイプラインに自動テストを組み込む主なメリットは次のとおりです。

バグや欠陥の早期検出: 自動テストは、開発プロセスの早い段階でバグや欠陥を検出し、本番環境で重大な問題が発生する前に修正するのに役立ちます。この機能により、開発プロセスの後半でコストのかかる手直しやバグの修正を行う必要がなくなるため、時間とリソースを節約できます。
高品質で標準ベースのコード: 自動テストは、コードが特定の標準とベストプラクティスを満たしていることを確認することで、コードの全体的な品質を向上させるのに役立ちます。この機能により、エラーが発生しにくく、保守性と信頼性の高いアプリケーションを実現できます。

CI/CD パイプラインでは、さまざまな種類のテスト手法を使用できます。各テストタイプには特定の目的があります。

単体テストでは、関数やメソッドなどのコードの個々の単位をテストして、それらが想定どおりに動作することを確認します。
統合テストでは、アプリケーションのさまざまなコンポーネントまたはモジュール間のインタラクションをテストして、それらが連携して正しく動作することを確認します。
エンドツーエンドテストは、単体テストや統合テストと併用されることがよくあります。エンドツーエンドテストでは、実際のシナリオをシミュレートしてアプリケーション全体をテストし、アプリケーションがエンドユーザーの要件を満たしていることを確認します。

自動テストを CI/CD パイプラインに効果的に統合するには、適切なテストツールとフレームワークを選択する必要があります。さまざまなオプションがあり、それぞれに長所と短所があります。また、実施するテストの種類、テストの頻度、テストの合格または不合格の基準を概説する明確なテスト戦略を確立する必要があります。これらの推奨事項に沿って自動テストプロセスを構築することで、効率的かつ効果的な自動テストプロセスを構築できます。このようなプロセスにより、クラウドアプリケーションの品質と信頼性に関する貴重な分析情報が得られます。

継続的な改善とイノベーション

Google Cloud Well-Architected Framework のオペレーショナルエクセレンスの柱におけるこの原則では、クラウドオペレーションを継続的に最適化し、イノベーションを推進するうえで役に立つ推奨事項が示されています。

原則の概要

クラウドで継続的に改善と革新を行うには、継続的な学習、テスト、適応に注力する必要があります。これにより、新しいテクノロジーを探索し、既存のプロセスを最適化できます。また、組織が業界のリーダーシップを獲得して維持できる優れた文化を促進します。

継続的な改善とイノベーションを通じて、次の目標を達成できます。

イノベーションを加速する: 新しいテクノロジーとサービスを検討して、機能を強化し、差別化を推進します。
コスト削減: プロセス改善イニシアチブを通じて非効率性を特定して排除します。
アジリティの強化: 変化する市場の需要と顧客のニーズに迅速に対応します。
意思決定の改善: データと分析から貴重な分析情報を取得し、データに基づく意思決定を行います。

継続的な改善とイノベーションの原則を採用する組織は、クラウド環境の可能性を最大限に引き出し、持続可能な成長を達成できます。この原則は、主に Workforce の運用準備の重点分野にマッピングされます。イノベーションの文化により、チームは新しいツールやテクノロジーを試して、機能を拡張し、コストを削減できます。

推奨事項

クラウドワークロードを継続的に改善し、革新するには、次のセクションの推奨事項を検討してください。このドキュメントの各推奨事項は、運用準備の重点分野の 1 つ以上に関連しています。

学習する文化を育む

チームが実験を行い、知識を共有し、継続的に学習することを奨励します。失敗を成長と改善の機会と捉える、非難のない文化を採用します。この推奨事項は、運用の準備状況の重点分野に関連しています。

学習文化を育むことで、チームは失敗から学び、迅速に反復できます。このアプローチでは、チームメンバーがリスクを冒し、新しいアイデアを試して、仕事の境界を広げることが奨励されます。また、心理的に安全な環境が構築され、個人が失敗を共有してそこから学ぶことを安心して行えるようになります。このように共有することで、よりオープンで協調的な環境が実現します。

知識の共有と継続的な学習を促進するため、チームが知識を共有し、互いに学び合う機会を設けます。これは、非公式および公式の学習セッションや会議を通じて行うことができます。

テスト、知識の共有、継続的な学習の文化を育むことで、チームがリスクを冒し、イノベーションを起こし、成長できる環境を構築できます。このような環境は、生産性の向上、問題解決の改善、従業員のエンゲージメントとモチベーションの向上につながります。また、責任を追及しない文化を推進することで、従業員が失敗から学び、チームの集合知に貢献できる安全な空間を創出できます。この文化は最終的に、課題に対処し、長期的に成功を推進する能力を備えた、より回復力と適応力のある従業員につながります。

定期的に振り返りを行う

振り返りでは、チームが経験を振り返り、うまくいったことと改善できることを特定します。プロジェクトや重大なインシデントの後に振り返りを行うことで、チームは成功と失敗から学び、プロセスとプラクティスを継続的に改善できます。この推奨事項は、運用準備の重点分野（プロセスとガバナンス）に関連しています。

レトロスペクティブを効果的に構成する方法は、Start-Stop-Continue モデルを使用することです。

開始: レトロスペクティブの開始フェーズでは、チームメンバーは、作業を改善できると思われる新しいプラクティス、プロセス、行動を特定します。変更が必要な理由と、変更を実装する方法について話し合います。
停止: 停止フェーズでは、チームメンバーは、効果がなくなったプラクティス、プロセス、行動や、進捗を妨げるプラクティス、プロセス、行動を特定して排除します。これらの変更が必要な理由と、その実装方法について説明します。
継続: 継続フェーズでは、チームメンバーは、効果的で継続する必要があるプラクティス、プロセス、行動を特定します。これらの要素が重要な理由と、それらを強化する方法について説明します。

Start-Stop-Continue モデルなどの構造化された形式を使用することで、チームはレトロスペクティブを生産的で集中的なものにすることができます。このモデルは、議論を促進し、主なポイントを特定し、今後の改善に向けた具体的な手順を特定するのに役立ちます。

クラウドテクノロジーの最新情報を入手する

Google Cloud サービスの可能性を最大限に引き出すには、最新の進歩、機能、ベストプラクティスを常に把握しておく必要があります。この推奨事項は、従業員の運用準備の重点分野に関連しています。

関連するカンファレンス、ウェビナー、トレーニングセッションに参加することは、知識を広げるための貴重な方法です。これらのイベントでは、 Google Cloud 専門家から学び、新しい機能を理解し、同様の課題に直面している可能性のある業界の同業者と交流することができます。これらのセッションに参加することで、新機能を効果的に使用する方法、クラウドオペレーションを最適化する方法、組織内でイノベーションを推進する方法についての分析情報を得ることができます。

チームメンバーがクラウドテクノロジーに遅れを取らないように、認定資格の取得とトレーニングコースの受講を奨励します。 Google Cloudは、特定のクラウドドメインのスキルと知識を検証する幅広い認定資格を提供しています。これらの認定資格を取得することで、卓越性への取り組みを実証し、クラウドテクノロジーの習熟度を具体的に証明できます。 Google Cloud とパートナーが提供するトレーニングコースでは、特定のトピックについて詳しく説明します。実際のプロジェクトにすぐに適用できる直接的な経験と実践的なスキルを身につけることができます。チームの専門能力開発に投資することで、継続的な学習の文化を育み、クラウドで成功するために必要なスキルを全員が身につけられるようにします。

フィードバックを積極的に求めて取り入れる

ユーザー、関係者、チームメンバーからフィードバックを収集します。フィードバックを使用して、クラウドソリューションを改善する機会を特定します。この推奨事項は、従業員の運用準備の重点分野に関連しています。

収集したフィードバックは、ソリューションのユーザーのニーズ、問題、期待の変化を把握するのに役立ちます。このフィードバックは、改善を推進し、今後の機能強化の優先順位付けを行ううえで貴重な情報となります。フィードバックを収集するには、さまざまなメカニズムを使用できます。

アンケートは、多数のユーザーや関係者から定量データを収集する効果的な方法です。
ユーザーインタビューは、質の高いデータを詳細に収集する機会となります。インタビューでは、個々のユーザーの具体的な課題や経験を把握できます。
クラウドソリューション内に配置されたフィードバックフォームを使用すると、ユーザーはエクスペリエンスについてすぐにフィードバックを送信できます。
チームメンバーとの定期的なミーティングは、技術的な側面や実装に関する課題についてのフィードバックの収集に役立ちます。

これらのメカニズムを通じて収集したフィードバックを分析して統合し、共通のテーマとパターンを特定する必要があります。この分析により、提案された改善策の影響と実現可能性に基づいて、今後の機能強化の優先順位付けを行うことができます。フィードバックで特定されたニーズや問題に対処することで、クラウドソリューションがユーザーや関係者の変化する要件を満たし続けるようにすることができます。

進捗状況を測定して追跡する

重要業績評価指標（KPI）と指標は、進捗状況を追跡し、クラウドオペレーションの効果を測定するために不可欠です。KPI は、全体的なパフォーマンスを反映する定量的な指標です。指標は、KPI の計算に貢献する特定のデータポイントです。指標を定期的に確認し、改善の機会を特定して進捗状況を測定するために使用します。これにより、クラウド環境を継続的に改善し、最適化できます。この推奨事項は、運用準備の重点分野（ガバナンスとプロセス）に関連しています。

KPI と指標を使用する主なメリットは、組織がクラウドオペレーションにデータドリブンアプローチを採用できることです。運用データを追跡して分析することで、クラウド環境を改善する方法について情報に基づいた意思決定を行うことができます。このデータドリブンアプローチにより、体系的な指標を使用しないと見えない可能性のある傾向、パターン、異常を特定できます。

運用データを収集して分析するには、Cloud Monitoring や BigQuery などのツールを使用できます。Cloud Monitoring を使用すると、クラウドリソースとサービスをリアルタイムでモニタリングできます。BigQuery を使用すると、モニタリングで収集したデータを保存して分析できます。これらのツールを組み合わせて使用すると、重要な指標と傾向を可視化するカスタムダッシュボードを作成できます。

運用ダッシュボードでは、最も重要な指標を一元的に確認できるため、注意が必要な領域をすばやく特定できます。たとえば、ダッシュボードには、特定のアプリケーションまたはサービスの CPU 使用率、メモリ使用量、ネットワークトラフィック、レイテンシなどの指標が含まれる場合があります。これらの指標をモニタリングすることで、潜在的な問題をすばやく特定し、解決するための手順を実行できます。

Well-Architected Framework: オペレーショナル エクセレンスの柱 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

基本原則

寄稿者

CloudOps を使用して運用の準備とパフォーマンスを確保する

原則の概要

運用準備の重点分野

推奨事項

SLO と SLA を定義する

包括的なオブザーバビリティを実装する

パフォーマンス テストと負荷テストを実装する

容量を計画して管理する

継続的にモニタリングして最適化する

インシデントと問題の管理

原則の概要

推奨事項

明確なインシデント対応手順を確立する

インシデント管理を一元化する

インシデント後の徹底的なレビューを実施する

ナレッジベースを維持する

インシデント対応を自動化する

クラウド リソースの管理と最適化

原則の概要

推奨事項

リソースのサイズを適正にする

自動スケーリングを使用する

費用最適化戦略を活用する

リソースの使用量と費用を追跡する

費用配賦と予算編成を確立する

変更の自動化と管理

原則の概要

推奨事項

IaC を導入する

バージョン管理を実装する

CI/CD パイプラインを構築する

構成管理ツールを使用する

テストの自動化

継続的な改善とイノベーション

原則の概要

推奨事項

学習する文化を育む

定期的に振り返りを行う

クラウド テクノロジーの最新情報を入手する

フィードバックを積極的に求めて取り入れる

進捗状況を測定して追跡する

Well-Architected Framework: オペレーショナルエクセレンスの柱

パフォーマンステストと負荷テストを実装する

クラウドリソースの管理と最適化

クラウドテクノロジーの最新情報を入手する