Diese Seite wurde von der Cloud Translation API übersetzt.

Well-Architected Framework: Säule „Operative Exzellenz“

Last reviewed 2025-02-14 UTC

Die Säule „Operative Exzellenz“ im Google Cloud Well-Architected Framework enthält Empfehlungen für den effizienten Betrieb von Arbeitslasten auf Google Cloud. Operational Excellence in der Cloud umfasst das Entwerfen, Implementieren und Verwalten von Cloud-Lösungen, die Wert, Leistung, Sicherheit und Zuverlässigkeit bieten. Die Empfehlungen in diesem Säule helfen Ihnen, Arbeitslasten kontinuierlich zu verbessern und anzupassen, um den dynamischen und sich ständig weiterentwickelnden Anforderungen in der Cloud gerecht zu werden.

Die Säule „Operational Excellence“ ist für die folgenden Zielgruppen relevant:

Führungskräfte: Ein Framework zum Einrichten und Aufrechterhalten von Operational Excellence in der Cloud und zum Sicherstellen, dass Cloud-Investitionen einen Mehrwert bieten und Geschäftsziele unterstützen.
Cloud-Betriebsteams: Anleitung zum Verwalten von Vorfällen und Problemen, zum Planen von Kapazitäten, zum Optimieren der Leistung und zum Verwalten von Änderungen.
Site Reliability Engineers (SREs): Best Practices, mit denen Sie eine hohe Dienstzuverlässigkeit erreichen können, einschließlich Monitoring, Reaktion auf Vorfälle und Automatisierung.
Cloud-Architekten und ‑Entwickler: Betriebliche Anforderungen und Best Practices für die Design- und Implementierungsphasen, damit Lösungen für betriebliche Effizienz und Skalierbarkeit konzipiert werden.
DevOps-Teams: Anleitungen zu Automatisierung, CI/CD-Pipelines und Änderungsmanagement, um eine schnellere und zuverlässigere Softwarebereitstellung zu ermöglichen.

Um operative Exzellenz zu erreichen, sollten Sie Automatisierung, Orchestrierung und datengestützte Erkenntnisse nutzen. Automatisierung trägt dazu bei, den Arbeitsaufwand zu minimieren. Außerdem werden sich wiederholende Aufgaben optimiert und es werden Schutzmaßnahmen für sie eingerichtet. Die Orchestrierung hilft, komplexe Prozesse zu koordinieren. Datengestützte Statistiken ermöglichen eine evidenzbasierte Entscheidungsfindung. Wenn Sie diese Best Practices anwenden, können Sie Cloud-Vorgänge optimieren, Kosten senken, die Dienstverfügbarkeit verbessern und die Sicherheit erhöhen.

Operational Excellence in der Cloud geht über die technischen Fähigkeiten bei Cloud-Vorgängen hinaus. Dazu gehört ein kultureller Wandel, der kontinuierliches Lernen und Experimentieren fördert. Teams müssen in die Lage versetzt werden, Innovationen zu entwickeln, zu iterieren und eine Wachstumsmentalität zu entwickeln. Eine Kultur der operativen Exzellenz fördert eine kollaborative Umgebung, in der Einzelpersonen ermutigt werden, Ideen auszutauschen, Annahmen zu hinterfragen und Verbesserungen voranzutreiben.

Prinzipien und Empfehlungen für operative Exzellenz, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Operative Exzellenz.

Grundprinzipien

Die Empfehlungen in der Säule „Operative Exzellenz“ des Well-Architected Frameworks sind den folgenden Grundprinzipien zugeordnet:

Betriebsbereitschaft und Leistung mit CloudOps sicherstellen: Cloud-Lösungen müssen betriebliche und Leistungsanforderungen erfüllen. Dazu müssen Service Level Objectives (SLOs) definiert und umfassende Überwachung, Leistungstests und Kapazitätsplanung durchgeführt werden.
Vorfälle und Probleme verwalten: Minimieren Sie die Auswirkungen von Cloud-Vorfällen und verhindern Sie ein erneutes Auftreten durch umfassende Beobachtbarkeit, klare Verfahren zur Reaktion auf Vorfälle, gründliche Retrospektiven und präventive Maßnahmen.
Cloud-Ressourcen verwalten und optimieren: Optimieren und verwalten Sie Cloud-Ressourcen mithilfe von Strategien wie Right-Sizing und Autoscaling sowie durch den Einsatz effektiver Tools zur Kostenüberwachung.
Änderungen automatisieren und verwalten: Prozesse automatisieren, Änderungsmanagement optimieren und den Aufwand manueller Arbeit reduzieren.
Kontinuierlich verbessern und innovativ sein: Konzentrieren Sie sich auf laufende Verbesserungen und die Einführung neuer Lösungen, um wettbewerbsfähig zu bleiben.

Beitragende

Autoren:

Ryan Cox | Principal Architect
Hadrian Knotz | Enterprise Architect

Weitere Beitragende:

Daniel Lees | Cloudsicherheitsarchitekt
Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Gary Harmson | Principal Architect
Jose Andrade | Customer Engineer, SRE Specialist
Kumar Dhanagopal | Cross-Product Solution Developer
Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
Samantha He | Technical Writer
Zach Seils | Networking Specialist
Wade Holmes | Global Solutions Director

Mit CloudOps für operative Bereitschaft und Leistung sorgen

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework hilft Ihnen, die Betriebsbereitschaft und Leistung Ihrer Cloud-Arbeitslasten sicherzustellen. Dabei wird Wert darauf gelegt, klare Erwartungen und Zusagen für die Serviceleistung festzulegen, ein robustes Monitoring und Benachrichtigungssystem zu implementieren, Leistungstests durchzuführen und proaktiv für Kapazitätsanforderungen zu planen.

Übersicht über die Grundsätze

Verschiedene Organisationen interpretieren die Einsatzbereitschaft möglicherweise unterschiedlich. Die Betriebsbereitschaft beschreibt, wie Ihre Organisation sich auf den erfolgreichen Betrieb von Arbeitslasten auf Google Cloudvorbereitet. Die Vorbereitung auf den Betrieb einer komplexen, mehrschichtigen Cloud-Arbeitslast erfordert eine sorgfältige Planung sowohl für den Go-Live als auch für den day-2. Diese Vorgänge werden oft als CloudOps bezeichnet.

Schwerpunkte der operativen Einsatzbereitschaft

Die Betriebsbereitschaft umfasst vier Schwerpunktbereiche. Jeder Fokusbereich besteht aus einer Reihe von Aktivitäten und Komponenten, die erforderlich sind, um eine komplexe Anwendung oder Umgebung in Google Cloudvorzubereiten. In der folgenden Tabelle sind die Komponenten und Aktivitäten der einzelnen Schwerpunktbereiche aufgeführt:

Fokusbereich der Einsatzbereitschaft	Aktivitäten und Komponenten
Belegschaft	Klare Rollen und Verantwortlichkeiten für die Teams definieren, die die Cloud-Ressourcen verwalten und betreiben. Sicherstellen, dass die Teammitglieder über die erforderlichen Fähigkeiten verfügen. Entwicklung eines Lernprogramms Eine klare Teamstruktur schaffen. Die erforderlichen Talente einstellen.
Prozesse	Beobachtbarkeit. Dienstunterbrechungen verwalten Cloud-Bereitstellung Kernaktivitäten in der Cloud.
Tools	Tools, die zur Unterstützung von CloudOps-Prozessen erforderlich sind.
Governance	Servicelevels und Berichte. Cloud-Finanzdaten. Cloud-Betriebsmodell. Architekturprüfung und Governance-Gremien. Cloud-Architektur und Compliance.

Empfehlungen

Wenn Sie CloudOps verwenden möchten, um die Betriebsbereitschaft und Leistung zu gewährleisten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Fokusbereiche für die operative Bereitschaft.

SLOs und SLAs definieren

Eine der Hauptaufgaben des Cloud Operations-Teams ist es, Service Level Objectives (SLOs) und Service Level Agreements (SLAs) für alle kritischen Arbeitslasten zu definieren. Diese Empfehlung bezieht sich auf den Governance-Fokusbereich der Betriebsbereitschaft.

SLOs müssen spezifisch, messbar, angemessen, relevant und terminiert (SMART) sein und das gewünschte Serviceniveau und die gewünschte Leistung widerspiegeln.

Spezifisch: Das erforderliche Serviceniveau und die erforderliche Leistung werden klar formuliert.
Messbar: quantifizierbar und nachvollziehbar.
Erreichbar: Innerhalb der Grenzen der Fähigkeiten und Ressourcen Ihrer Organisation erreichbar.
Relevant: Auf Geschäftsziele und Prioritäten abgestimmt.
Zeitlich begrenzt: Es gibt einen festgelegten Zeitraum für die Messung und Bewertung.

Ein SLO für eine Webanwendung könnte beispielsweise „99, 9% Verfügbarkeit“ oder „durchschnittliche Reaktionszeit unter 200 ms“ lauten. Solche SLOs definieren eindeutig das erforderliche Serviceniveau und die erforderliche Leistung für die Webanwendung. Sie können im Zeitverlauf gemessen und nachverfolgt werden.

In SLAs werden die Zusicherungen gegenüber Kunden in Bezug auf Dienstverfügbarkeit, Leistung und Support beschrieben, einschließlich aller Strafen oder Abhilfemaßnahmen bei Nichteinhaltung. SLAs müssen spezifische Details zu den bereitgestellten Diensten, dem erwarteten Serviceniveau, den Verantwortlichkeiten des Dienstanbieters und des Kunden sowie etwaigen Strafen oder Abhilfemaßnahmen bei Nichteinhaltung enthalten. SLAs dienen als vertragliche Vereinbarung zwischen den beiden Parteien und sorgen dafür, dass beide ein klares Verständnis der Erwartungen und Verpflichtungen haben, die mit dem Cloud-Dienst verbunden sind.

Google Cloud bietet Tools wie Cloud Monitoring und Service Level Indicators (SLIs), mit denen Sie SLOs definieren und verfolgen können. Cloud Monitoring bietet umfassende Überwachungs- und Beobachtbarkeitsfunktionen, mit denen Ihre Organisation Messwerte zur Verfügbarkeit, Leistung und Latenz von cloudbasierten Anwendungen und Diensten erfassen und analysieren kann. SLIs sind spezifische Messwerte, mit denen Sie SLOs im Zeitverlauf messen und verfolgen können. Mit diesen Tools können Sie Cloud-Dienste effektiv überwachen und verwalten und dafür sorgen, dass sie die SLOs und SLAs erfüllen.

Wenn Sie SLOs und SLAs für alle Ihre kritischen Clouddienste klar definieren und kommunizieren, können Sie die Zuverlässigkeit und Leistung Ihrer bereitgestellten Anwendungen und Dienste sicherstellen.

Umfassende Beobachtbarkeit implementieren

Um Echtzeit-Einblicke in den Zustand und die Leistung Ihrer Cloud-Umgebung zu erhalten, empfehlen wir, eine Kombination aus Google Cloud Observability-Tools und Drittanbieterlösungen zu verwenden. Diese Empfehlung bezieht sich auf die folgenden Fokusbereiche der operativen Bereitschaft: Prozesse und Tools.

Wenn Sie eine Kombination von Lösungen für die Beobachtbarkeit implementieren, erhalten Sie eine umfassende Strategie, die verschiedene Aspekte Ihrer Cloud-Infrastruktur und Anwendungen abdeckt. Google Cloud Observability ist eine einheitliche Plattform zum Erfassen, Analysieren und Visualisieren von Messwerten, Logs und Traces aus verschiedenenGoogle Cloud -Diensten, Anwendungen und externen Quellen. Mit Cloud Monitoring können Sie Einblicke in die Ressourcennutzung, die Leistungsmerkmale und den Gesamtzustand Ihrer Ressourcen erhalten.

Um eine umfassende Überwachung zu gewährleisten, sollten Sie wichtige Messwerte im Blick behalten, die mit Systemstatusindikatoren wie CPU-Auslastung, Arbeitsspeichernutzung, Netzwerkverkehr, Laufwerk-E/A und Anwendungsantwortzeiten übereinstimmen. Sie müssen auch unternehmensspezifische Messwerte berücksichtigen. Wenn Sie diese Messwerte im Blick behalten, können Sie potenzielle Engpässe, Leistungsprobleme und Ressourcenbeschränkungen erkennen. Außerdem können Sie Benachrichtigungen einrichten, um die zuständigen Teams proaktiv über potenzielle Probleme oder Anomalien zu informieren.

Um Ihre Monitoringfunktionen weiter zu verbessern, können Sie Drittanbieterlösungen in Google Cloud Observability einbinden. Diese Lösungen können zusätzliche Funktionen bieten, z. B. erweiterte Analysen, auf maschinellem Lernen basierende Anomalieerkennung und Funktionen zur Vorfallverwaltung. Mit dieser Kombination aus Google Cloud-Tools für die Beobachtbarkeit und Drittanbieterlösungen können Sie ein robustes und anpassbares Monitoring-Ökosystem erstellen, das auf Ihre spezifischen Anforderungen zugeschnitten ist. Mit diesem Kombinationsansatz können Sie Probleme proaktiv erkennen und beheben, die Ressourcennutzung optimieren und die allgemeine Zuverlässigkeit und Verfügbarkeit Ihrer Cloud-Anwendungen und ‑Dienste sicherstellen.

Leistungs- und Lasttests implementieren

Regelmäßige Leistungstests helfen Ihnen, sicherzustellen, dass Ihre cloudbasierten Anwendungen und Ihre Infrastruktur Spitzenlasten bewältigen und eine optimale Leistung aufrechterhalten können. Beim Lasttest werden realistische Trafficmuster simuliert. Beim Stresstest wird das System an seine Grenzen gebracht, um potenzielle Engpässe und Leistungseinschränkungen zu identifizieren. Diese Empfehlung bezieht sich auf die folgenden Fokusbereiche der operativen Bereitschaft: Prozesse und Tools.

Tools wie Cloud Load Balancing und Lasttestdienste können Ihnen helfen, reale Trafficmuster zu simulieren und Ihre Anwendungen einem Stresstest zu unterziehen. Diese Tools liefern wertvolle Informationen dazu, wie sich Ihr System unter verschiedenen Lastbedingungen verhält. So können Sie Bereiche ermitteln, die optimiert werden müssen.

Anhand der Ergebnisse von Leistungstests können Sie Entscheidungen treffen, um Ihre Cloud-Infrastruktur und Anwendungen für optimale Leistung und Skalierbarkeit zu optimieren. Dazu kann es erforderlich sein, die Ressourcenzuweisung anzupassen, Konfigurationen zu optimieren oder Caching-Mechanismen zu implementieren.

Wenn Sie beispielsweise feststellen, dass Ihre Anwendung bei hohem Traffic langsamer wird, müssen Sie möglicherweise die Anzahl der virtuellen Maschinen oder Container erhöhen, die der Anwendung zugewiesen sind. Alternativ müssen Sie möglicherweise die Konfiguration Ihres Webservers oder Ihrer Datenbank anpassen, um die Leistung zu verbessern.

Durch regelmäßige Leistungstests und die Implementierung der erforderlichen Optimierungen können Sie dafür sorgen, dass Ihre cloudbasierten Anwendungen und Ihre Infrastruktur immer mit maximaler Leistung ausgeführt werden und Ihren Nutzern eine nahtlose und reaktionsschnelle Nutzung ermöglichen. So können Sie sich einen Wettbewerbsvorteil sichern und das Vertrauen Ihrer Kunden stärken.

Kapazität planen und verwalten

Wenn Sie proaktiv für zukünftige Kapazitätsanforderungen planen – sowohl organische als auch anorganische –, können Sie den reibungslosen Betrieb und die Skalierbarkeit Ihrer cloudbasierten Systeme sicherstellen. Diese Empfehlung bezieht sich auf den Fokusbereich der betrieblichen Bereitschaft.

Die Planung für zukünftige Kapazitäten umfasst das Verstehen und Verwalten von Kontingenten für verschiedene Ressourcen wie Compute-Instanzen, Speicher und API-Anfragen. Durch die Analyse von bisherigen Nutzungsmustern, Wachstumsprognosen und geschäftlichen Anforderungen können Sie zukünftige Kapazitätsanforderungen genau vorhersagen. Mit Tools wie Cloud Monitoring und BigQuery können Sie Nutzungsdaten erfassen und analysieren, Trends erkennen und die zukünftige Nachfrage prognostizieren.

Historische Nutzungsmuster liefern wertvolle Einblicke in die Ressourcennutzung im Zeitverlauf. Anhand von Messwerten wie CPU-Auslastung, Speichernutzung und Netzwerkverkehr können Sie Zeiten mit hoher Nachfrage und potenzielle Engpässe erkennen. Außerdem können Sie den zukünftigen Kapazitätsbedarf schätzen, indem Sie Wachstumsprognosen auf der Grundlage von Faktoren wie dem Wachstum der Nutzerbasis, neuen Produkten und Funktionen sowie Marketingkampagnen erstellen. Bei der Bewertung des Kapazitätsbedarfs sollten Sie auch geschäftliche Anforderungen wie SLAs und Leistungsziele berücksichtigen.

Berücksichtigen Sie bei der Bestimmung der Ressourcengröße für eine Arbeitslast Faktoren, die sich auf die Ressourcennutzung auswirken können. Saisonale Schwankungen wie die Feiertagssaison oder der Quartalsabschluss können zu vorübergehenden Nachfragespitzen führen. Auch geplante Ereignisse wie Produkteinführungen oder Marketingkampagnen können den Traffic erheblich steigern. Damit Ihr primäres System und Ihr System zur Notfallwiederherstellung (Disaster Recovery, DR) unerwartete Nachfragespitzen bewältigen können, sollten Sie Kapazitäten einplanen, die ein reibungsloses Failover bei Störungen wie Naturkatastrophen und Cyberangriffen ermöglichen.

Autoscaling ist eine wichtige Strategie, um Ihre Cloud-Ressourcen dynamisch an Schwankungen der Arbeitslast anzupassen. Mit Autoscaling-Richtlinien können Sie Recheninstanzen, Speicher und andere Ressourcen automatisch an die sich ändernde Nachfrage anpassen. So wird eine optimale Leistung in Spitzenzeiten gewährleistet und gleichzeitig die Kosten bei geringer Ressourcenauslastung minimiert. Autoscaling-Algorithmen verwenden Messwerte wie CPU-Auslastung, Arbeitsspeichernutzung und Warteschlangentiefe, um zu bestimmen, wann Ressourcen skaliert werden sollen.

Kontinuierlich überwachen und optimieren

Um Cloud-Arbeitslasten zu verwalten und zu optimieren, müssen Sie einen Prozess für die kontinuierliche Überwachung und Analyse von Leistungsmesswerten einrichten. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der operativen Bereitschaft: Prozesse und Tools.

Um einen Prozess für kontinuierliches Monitoring und kontinuierliche Analysen einzurichten, müssen Sie Daten zu verschiedenen Aspekten Ihrer Cloud-Umgebung erfassen, sammeln und auswerten. Mithilfe dieser Daten können Sie proaktiv Bereiche für Verbesserungen identifizieren, die Ressourcennutzung optimieren und dafür sorgen, dass Ihre Cloudinfrastruktur Ihre Leistungserwartungen durchgehend erfüllt oder übertrifft.

Ein wichtiger Aspekt der Leistungsüberwachung ist die regelmäßige Überprüfung von Logs und Traces. Protokolle liefern wertvolle Informationen zu Systemereignissen, Fehlern und Warnungen. Traces enthalten detaillierte Informationen zum Ablauf von Anfragen durch Ihre Anwendung. Durch die Analyse von Logs und Traces können Sie potenzielle Probleme und die Grundursachen von Problemen erkennen und besser nachvollziehen, wie sich Ihre Anwendungen unter verschiedenen Bedingungen verhalten. Messwerte wie die Round-Trip-Zeit zwischen Diensten können Ihnen helfen, Engpässe in Ihren Arbeitslasten zu identifizieren und zu verstehen.

Außerdem können Sie die Reaktionszeiten von Anwendungen und die Gesamteffizienz durch Leistungsoptimierungstechniken erheblich verbessern. Hier sind einige Beispiele für Techniken, die Sie verwenden können:

Caching: Speichern Sie häufig aufgerufene Daten im Arbeitsspeicher, um die Notwendigkeit wiederholter Datenbankabfragen oder API-Aufrufe zu verringern.
Datenbankoptimierung: Verwenden Sie Techniken wie die Indexierung und Abfrageoptimierung, um die Leistung von Datenbankvorgängen zu verbessern.
Code-Profilerstellung: Bereiche Ihres Codes identifizieren, die übermäßig viele Ressourcen beanspruchen oder Leistungsprobleme verursachen.

Durch die Anwendung dieser Techniken können Sie Ihre Anwendungen optimieren und dafür sorgen, dass sie effizient in der Cloud ausgeführt werden.

Vorfälle und Probleme verwalten

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Verwaltung von Vorfällen und Problemen im Zusammenhang mit Ihren Cloud-Arbeitslasten. Dazu gehören die Implementierung umfassender Überwachungs- und Beobachtbarkeitsfunktionen, die Festlegung klarer Verfahren für die Reaktion auf Vorfälle, die Durchführung gründlicher Ursachenanalysen und die Implementierung präventiver Maßnahmen. Viele der in diesem Grundsatz behandelten Themen werden im Zuverlässigkeits-Pfeiler ausführlich behandelt.

Übersicht über die Grundsätze

Das Vorfall- und Problemmanagement sind wichtige Komponenten einer funktionalen Betriebsumgebung. Wie Sie auf Vorfälle unterschiedlicher Schwere reagieren, sie kategorisieren und beheben, kann sich erheblich auf Ihre Abläufe auswirken. Sie müssen auch proaktiv und kontinuierlich Anpassungen vornehmen, um Zuverlässigkeit und Leistung zu optimieren. Ein effizienter Prozess für das Incident- und Problemmanagement basiert auf den folgenden grundlegenden Elementen:

Kontinuierliches Monitoring: Probleme schnell erkennen und beheben
Automatisierung: Aufgaben optimieren und Effizienz steigern
Orchestrierung: Cloud-Ressourcen effektiv koordinieren und verwalten.
Datengestützte Statistiken: Cloud-Vorgänge optimieren und fundierte Entscheidungen treffen.

Diese Elemente helfen Ihnen, eine robuste Cloud-Umgebung zu schaffen, die eine Vielzahl von Herausforderungen und Störungen bewältigen kann. Diese Elemente können auch dazu beitragen, das Risiko kostspieliger Vorfälle und Ausfallzeiten zu verringern und eine höhere geschäftliche Agilität und einen größeren Erfolg zu erzielen. Diese grundlegenden Elemente sind auf die vier Schwerpunktbereiche der Betriebsbereitschaft verteilt: Mitarbeiter, Prozesse, Tools und Governance.

Empfehlungen

Wenn Sie Vorfälle und Probleme effektiv verwalten möchten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Schwerpunkte der Betriebsbereitschaft.

Klare Verfahren für die Reaktion auf Vorfälle festlegen

Klare Rollen und Verantwortlichkeiten sind unerlässlich, um eine effektive und koordinierte Reaktion auf Vorfälle zu gewährleisten. Außerdem tragen klare Kommunikationsprotokolle und Eskalierungswege dazu bei, dass Informationen während eines Vorfalls zeitnah und effektiv weitergegeben werden. Diese Empfehlung ist für die folgenden Schwerpunkte der Betriebsbereitschaft relevant: Mitarbeiter, Prozesse und Tools.

Um Verfahren für die Reaktion auf Vorfälle zu entwickeln, müssen Sie die Rollen und Erwartungen jedes Teammitglieds definieren, z. B. Incident Commander, Ermittler, Kommunikatoren und technische Experten. Das Einrichten von Kommunikations- und Eskalierungspfaden umfasst das Identifizieren wichtiger Kontakte, das Einrichten von Kommunikationskanälen und das Definieren des Prozesses für die Eskalierung von Vorfällen an höhere Führungsebenen, falls erforderlich. Regelmäßige Schulungen und Vorbereitung tragen dazu bei, dass Teams über das Wissen und die Fähigkeiten verfügen, um effektiv auf Vorfälle zu reagieren.

Wenn Sie Verfahren zur Reaktion auf Vorfälle in einem Runbook oder Playbook dokumentieren, können Sie ein standardisiertes Nachschlagewerk für Teams erstellen, das sie während eines Vorfalls verwenden können. Im Runbook müssen die Schritte beschrieben werden, die in jeder Phase des Prozesses zur Reaktion auf Vorfälle zu ergreifen sind, einschließlich Kommunikation, Triage, Untersuchung und Behebung. Außerdem müssen Informationen zu relevanten Tools und Ressourcen sowie Kontaktinformationen für wichtiges Personal enthalten sein. Sie müssen das Runbook regelmäßig überprüfen und aktualisieren, damit es aktuell und effektiv bleibt.

Vorfallmanagement zentralisieren

Für ein effektives Tracking und Management während des gesamten Vorfalllebenszyklus empfiehlt es sich, ein zentrales Vorfallmanagementsystem zu verwenden. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Prozesse und Tools.

Ein zentralisiertes System zur Vorfallverwaltung bietet folgende Vorteile:

Bessere Sichtbarkeit: Durch die Konsolidierung aller incidentbezogenen Daten an einem zentralen Ort müssen Teams nicht mehr in verschiedenen Kanälen oder Systemen nach Kontext suchen. Dieser Ansatz spart Zeit, vermeidet Verwirrung und bietet Stakeholdern einen umfassenden Überblick über den Vorfall, einschließlich Status, Auswirkungen und Fortschritt.
Bessere Koordination und Zusammenarbeit: Ein zentralisiertes System bietet eine einheitliche Plattform für die Kommunikation und Aufgabenverwaltung. Sie fördert die nahtlose Zusammenarbeit zwischen den verschiedenen Abteilungen und Funktionen, die an der Reaktion auf Vorfälle beteiligt sind. So haben alle Zugriff auf aktuelle Informationen und das Risiko von Missverständnissen und Abweichungen wird verringert.
Verbesserte Verantwortlichkeit und Zuständigkeit: Ein zentralisiertes System zur Vorfallverwaltung ermöglicht es Ihrer Organisation, Aufgaben bestimmten Personen oder Teams zuzuweisen. So wird sichergestellt, dass Verantwortlichkeiten klar definiert und nachverfolgt werden. Dieser Ansatz fördert die Verantwortlichkeit und regt zu proaktiver Problemlösung an, da Teammitglieder ihren Fortschritt und ihre Beiträge leicht im Blick behalten können.

Ein zentrales System zur Vorfallverwaltung muss robuste Funktionen für die Vorfallverfolgung, die Aufgabenzuweisung und die Kommunikationsverwaltung bieten. Mit diesen Funktionen können Sie Workflows anpassen, Prioritäten festlegen und in andere Systeme wie Monitoring-Tools und Ticketing-Systeme einbinden.

Durch die Implementierung eines zentralen Systems für das Vorfallmanagement können Sie die Prozesse zur Reaktion auf Vorfälle in Ihrer Organisation optimieren, die Zusammenarbeit verbessern und die Transparenz erhöhen. Dies führt zu schnelleren Reaktionszeiten bei Vorfällen, weniger Ausfallzeiten und einer höheren Kundenzufriedenheit. Außerdem wird so eine Kultur der kontinuierlichen Verbesserung gefördert, da Sie aus vergangenen Vorfällen lernen und Bereiche mit Verbesserungspotenzial identifizieren können.

Gründliche Überprüfungen nach Vorfällen durchführen

Nach einem Vorfall müssen Sie eine detaillierte Überprüfung nach dem Vorfall (Post-Incident Review, PIR) durchführen, die auch als Postmortem bezeichnet wird, um die Ursache, die beitragenden Faktoren und die gewonnenen Erkenntnisse zu ermitteln. Diese gründliche Überprüfung hilft Ihnen, ähnliche Vorfälle in Zukunft zu vermeiden. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der Betriebsbereitschaft: Prozesse und Governance.

Am PIR-Prozess muss ein multidisziplinäres Team beteiligt sein, das über Fachwissen in verschiedenen Aspekten des Vorfalls verfügt. Das Team muss alle relevanten Informationen durch Interviews, die Überprüfung von Dokumenten und Inspektionen vor Ort sammeln. Es muss eine Zeitachse der Ereignisse erstellt werden, um die Abfolge der Aktionen zu ermitteln, die zum Vorfall geführt haben.

Nachdem das Team die erforderlichen Informationen gesammelt hat, muss es eine Ursachenanalyse durchführen, um die Faktoren zu ermitteln, die zum Vorfall geführt haben. Bei dieser Analyse müssen sowohl die unmittelbare Ursache als auch die systemischen Probleme ermittelt werden, die zu dem Vorfall beigetragen haben.

Das PIR-Team muss nicht nur die Grundursache, sondern auch alle anderen Faktoren ermitteln, die den Vorfall verursacht haben könnten. Zu diesen Faktoren können menschliches Versagen, Geräteausfälle oder organisatorische Faktoren wie Kommunikationsstörungen und mangelnde Schulung gehören.

Im PIR-Bericht müssen die Ergebnisse der Untersuchung dokumentiert werden, einschließlich des Zeitplans der Ereignisse, der Ursachenanalyse und der empfohlenen Maßnahmen. Der Bericht ist eine wertvolle Ressource für die Umsetzung von Korrekturmaßnahmen und die Vermeidung von Wiederholungen. Der Bericht muss mit allen relevanten Stakeholdern geteilt werden und zur Entwicklung von Sicherheitsschulungen und ‑verfahren verwendet werden.

Damit der PIR-Prozess erfolgreich ist, muss Ihre Organisation eine Kultur ohne Schuldzuweisung fördern, die sich auf Lernen und Verbesserung konzentriert, anstatt Schuld zuzuweisen. In einer solchen Kultur werden Mitarbeiter ermutigt, Vorfälle zu melden, ohne Angst vor Vergeltungsmaßnahmen haben zu müssen. So können Sie systemische Probleme angehen und sinnvolle Verbesserungen vornehmen.

Wenn Sie gründliche PIRs durchführen und auf Grundlage der Ergebnisse Korrekturmaßnahmen ergreifen, können Sie das Risiko ähnlicher Vorfälle in der Zukunft erheblich reduzieren. Dieser proaktive Ansatz zur Untersuchung und Vermeidung von Vorfällen trägt dazu bei, ein sichereres und effizienteres Arbeitsumfeld für alle Beteiligten zu schaffen.

Wissensdatenbank pflegen

Eine Wissensdatenbank mit bekannten Problemen, Lösungen und Anleitungen zur Fehlerbehebung ist für das Incident-Management und die Problembehebung unerlässlich. Teammitglieder können die Wissensdatenbank nutzen, um häufige Probleme schnell zu erkennen und zu beheben. Durch die Implementierung einer Wissensdatenbank kann die Notwendigkeit von Eskalierungen verringert und die allgemeine Effizienz verbessert werden. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Mitarbeiter und Prozesse.

Ein wesentlicher Vorteil einer Wissensdatenbank besteht darin, dass Teams aus früheren Erfahrungen lernen und Fehler vermeiden können. Durch das Erfassen und Teilen von Lösungen für bekannte Probleme können Teams ein gemeinsames Verständnis dafür entwickeln, wie häufige Probleme behoben werden und welche Best Practices für das Incident-Management gelten. Die Verwendung einer Wissensdatenbank spart Zeit und Aufwand und trägt dazu bei, Prozesse zu standardisieren und für Konsistenz bei der Behebung von Vorfällen zu sorgen.

Eine Wissensdatenbank trägt nicht nur dazu bei, die Reaktionszeiten bei Vorfällen zu verkürzen, sondern fördert auch den Wissensaustausch und die Zusammenarbeit zwischen Teams. Mit einem zentralen Informationsspeicher können Teams einfach auf die Wissensdatenbank zugreifen und dazu beitragen. Das fördert eine Kultur des kontinuierlichen Lernens und der kontinuierlichen Verbesserung. In einer solchen Kultur werden Teams dazu ermutigt, ihr Fachwissen und ihre Erfahrungen zu teilen, was zu einer umfassenderen und wertvolleren Wissensdatenbank führt.

Verwenden Sie geeignete Tools und Technologien, um eine Wissensdatenbank effektiv zu erstellen und zu verwalten. Plattformen für die Zusammenarbeit wie Google Workspace eignen sich gut für diesen Zweck, da Sie damit ganz einfach gemeinsam Dokumente erstellen, bearbeiten und freigeben können. Diese Tools unterstützen auch die Versionskontrolle und die Änderungsnachverfolgung, damit die Wissensdatenbank immer auf dem neuesten Stand und korrekt ist.

Machen Sie die Wissensdatenbank für alle relevanten Teams leicht zugänglich. Sie können dies erreichen, indem Sie die Wissensdatenbank in bestehende Systeme zur Vorfallverwaltung einbinden oder ein spezielles Portal oder eine Intranet-Website bereitstellen. Eine leicht zugängliche Wissensdatenbank ermöglicht es Teams, schnell auf die Informationen zuzugreifen, die sie benötigen, um Vorfälle effizient zu beheben. Diese Verfügbarkeit trägt dazu bei, Ausfallzeiten zu reduzieren und die Auswirkungen auf den Geschäftsbetrieb zu minimieren.

Prüfen und aktualisieren Sie die Wissensdatenbank regelmäßig, damit sie relevant und nützlich bleibt. Vorfallberichte im Blick behalten, häufige Probleme und Trends erkennen und neue Lösungen und Anleitungen zur Fehlerbehebung in die Wissensdatenbank aufnehmen. Eine aktuelle Wissensdatenbank hilft Ihren Teams, Vorfälle schneller und effektiver zu beheben.

Reaktion auf Vorfälle automatisieren

Die Automatisierung trägt dazu bei, Ihre Prozesse für die Reaktion auf Vorfälle und die Fehlerbehebung zu optimieren. So können Sie Sicherheitsverstöße und Systemausfälle schnell und effizient beheben. Mit Google Cloud -Produkten wie Cloud Run-Funktionen oder Cloud Run können Sie verschiedene Aufgaben automatisieren, die normalerweise manuell und zeitaufwendig sind. Diese Empfehlung bezieht sich auf die folgenden Fokusbereiche der operativen Bereitschaft: Prozesse und Tools.

Die automatisierte Reaktion auf Vorfälle bietet folgende Vorteile:

Kürzere Reaktionszeiten bei der Erkennung und Behebung von Vorfällen: Automatisierte Tools können Systeme und Anwendungen kontinuierlich überwachen, verdächtige oder anomale Aktivitäten in Echtzeit erkennen und Stakeholder benachrichtigen oder ohne Eingreifen reagieren. Durch diese Automatisierung können Sie potenzielle Bedrohungen oder Probleme erkennen, bevor sie zu schwerwiegenden Vorfällen eskalieren. Wenn ein Vorfall erkannt wird, können automatisierte Tools vordefinierte Abhilfemaßnahmen auslösen, z. B. das Isolieren betroffener Systeme, das Unter Quarantäne stellen schädlicher Dateien oder das Rückgängigmachen von Änderungen, um das System in einen bekannten, funktionierenden Zustand zurückzusetzen.
Geringere Belastung für Sicherheits- und Betriebsteams: Durch die automatisierte Reaktion auf Vorfälle können sich die Sicherheits- und Betriebsteams auf strategischere Aufgaben konzentrieren. Durch die Automatisierung von Routine- und sich wiederholenden Aufgaben wie dem Erfassen von Diagnoseinformationen oder dem Auslösen von Benachrichtigungen kann Ihre Organisation Personal für die Bearbeitung komplexerer und kritischer Vorfälle freisetzen. Diese Automatisierung kann die Effektivität und Effizienz der Reaktion auf Vorfälle insgesamt verbessern.
Verbesserte Konsistenz und Genauigkeit des Behebungsprozesses: Automatisierte Tools können dafür sorgen, dass Behebungsmaßnahmen einheitlich auf alle betroffenen Systeme angewendet werden. So wird das Risiko menschlicher Fehler oder Inkonsistenzen minimiert. Diese Standardisierung des Behebungsprozesses trägt dazu bei, die Auswirkungen von Vorfällen auf Nutzer und das Unternehmen zu minimieren.

Cloud-Ressourcen verwalten und optimieren

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Verwaltung und Optimierung der Ressourcen, die von Ihren Cloud-Arbeitslasten verwendet werden. Dazu gehören die Anpassung der Ressourcengröße basierend auf tatsächlicher Nutzung und Nachfrage, die Verwendung von Autoscaling für die dynamische Ressourcenzuweisung, die Implementierung von Kostenoptimierungsstrategien und die regelmäßige Überprüfung der Ressourcennutzung und ‑kosten. Viele der in diesem Grundsatz behandelten Themen werden im Pillar Kostenoptimierung ausführlich behandelt.

Übersicht über die Grundsätze

Die Verwaltung und Optimierung von Cloud-Ressourcen spielt eine wichtige Rolle bei der Optimierung von Cloud-Ausgaben, Ressourcennutzung und Infrastruktureffizienz. Sie umfasst verschiedene Strategien und Best Practices, mit denen Sie den Wert und den ROI Ihrer Cloud-Ausgaben maximieren können.

Der Fokus dieser Säule auf die Optimierung geht über die Kostensenkung hinaus. Dabei werden die folgenden Ziele verfolgt:

Effizienz: Automatisierung und Datenanalyse nutzen, um Spitzenleistung und Kosteneinsparungen zu erzielen.
Leistung: Ressourcen lassen sich mühelos skalieren, um schwankenden Anforderungen gerecht zu werden und optimale Ergebnisse zu erzielen.
Skalierbarkeit: Anpassung von Infrastruktur und Prozessen, um schnelles Wachstum und unterschiedliche Arbeitslasten zu bewältigen.

Wenn Sie sich auf diese Ziele konzentrieren, erreichen Sie ein ausgewogenes Verhältnis zwischen Kosten und Funktionalität. Sie können fundierte Entscheidungen in Bezug auf die Bereitstellung, Skalierung und Migration von Ressourcen treffen. Außerdem erhalten Sie wertvolle Einblicke in die Muster des Ressourcenverbrauchs, sodass Sie potenzielle Probleme proaktiv erkennen und beheben können, bevor sie eskalieren.

Empfehlungen

Beachten Sie die Empfehlungen in den folgenden Abschnitten, um Ressourcen zu verwalten und zu optimieren. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Schwerpunkte der Betriebsbereitschaft.

Ressourcen richtig dimensionieren

Die kontinuierliche Überwachung der Ressourcennutzung und die Anpassung der Ressourcenzuweisung an den tatsächlichen Bedarf sind für eine effiziente Verwaltung von Cloud-Ressourcen unerlässlich. Eine Überbereitstellung von Ressourcen kann zu unnötigen Kosten führen, während eine Unterbereitstellung Leistungsengpässe verursachen kann, die sich auf die Anwendungsleistung und die Nutzerfreundlichkeit auswirken. Um ein optimales Gleichgewicht zu erreichen, müssen Sie Cloud-Ressourcen proaktiv anpassen. Diese Empfehlung bezieht sich auf den Governance-Schwerpunktbereich der Betriebsbereitschaft.

Cloud Monitoring und Recommender können Ihnen dabei helfen, Möglichkeiten für die richtige Dimensionierung zu erkennen. Cloud Monitoring bietet Echtzeit-Einblick in Messwerte zur Ressourcennutzung. So können Sie Muster bei der Ressourcennutzung nachvollziehen und potenzielle Ineffizienzen erkennen. Recommender analysiert Daten zur Ressourcennutzung, um intelligente Empfehlungen zur Optimierung der Ressourcenzuweisung zu geben. Mit diesen Tools können Sie sich einen Überblick über die Ressourcennutzung verschaffen und fundierte Entscheidungen zur Anpassung der Ressourcengröße treffen.

Zusätzlich zu Cloud Monitoring und Recommender sollten Sie benutzerdefinierte Messwerte verwenden, um automatisierte Aktionen zur Anpassung der Größe auszulösen. Mit benutzerdefinierten Messwerten können Sie bestimmte Messwerte zur Ressourcenauslastung erfassen, die für Ihre Anwendungen und Arbeitslasten relevant sind. Sie können auch Benachrichtigungen konfigurieren, um Administratoren zu informieren, wenn vordefinierte Grenzwerte erreicht werden. Die Administratoren können dann die erforderlichen Maßnahmen ergreifen, um die Ressourcenzuweisung anzupassen. Durch diesen proaktiven Ansatz werden Ressourcen rechtzeitig skaliert, was zur Optimierung der Cloud-Kosten und zur Vermeidung von Leistungsproblemen beiträgt.

Autoscaling verwenden

Durch das automatische Skalieren von Compute- und anderen Ressourcen wird die optimale Leistung und Kosteneffizienz Ihrer cloudbasierten Anwendungen sichergestellt. Mit Autoscaling können Sie die Kapazität Ihrer Ressourcen dynamisch an Schwankungen der Arbeitslast anpassen. So haben Sie die Ressourcen, die Sie benötigen, wenn Sie sie brauchen, und können Überdimensionierung und unnötige Kosten vermeiden. Diese Empfehlung bezieht sich auf den Fokusbereich der betrieblichen Bereitschaft.

Um den unterschiedlichen Anforderungen verschiedener Anwendungen und Arbeitslasten gerecht zu werden, bietetGoogle Cloud verschiedene Optionen für die automatische Skalierung, darunter die folgenden:

Verwaltete Instanzgruppen (Managed Instance Groups, MIGs) in Compute Engine sind Gruppen von VMs, die als eine einzige Entität verwaltet und skaliert werden. Mit MIGs können Sie Autoscaling-Richtlinien definieren, in denen die Mindest- und Höchstanzahl der VMs angegeben wird, die in der Gruppe beibehalten werden sollen, sowie die Bedingungen, die das Autoscaling auslösen. Sie können beispielsweise eine Richtlinie konfigurieren, um VMs in einer MIG hinzuzufügen, wenn die CPU-Auslastung einen bestimmten Grenzwert erreicht, und VMs zu entfernen, wenn die Auslastung unter einen anderen Grenzwert sinkt.
Mit GKE-Autoscaling (Google Kubernetes Engine) werden Ihre Clusterressourcen dynamisch an die Anforderungen Ihrer Anwendung angepasst. Es bietet die folgenden Tools:
- Cluster Autoscaler fügt Knoten basierend auf den Ressourcenanforderungen von Pods hinzu oder entfernt sie.
- Das horizontale Pod-Autoscaling ändert die Anzahl der Pod-Replikate basierend auf CPU-, Arbeitsspeicher- oder benutzerdefinierten Messwerten.
- Das vertikale Pod-Autoscaling optimiert Pod-Ressourcenanfragen und ‑limits basierend auf Nutzungsmustern.
- Durch die automatische Knotenbereitstellung werden automatisch optimierte Knotenpools für Ihre Arbeitslasten erstellt.
Diese Tools arbeiten zusammen, um die Ressourcennutzung zu optimieren, die Anwendungsleistung zu gewährleisten und die Clusterverwaltung zu vereinfachen.
Cloud Run ist eine serverlose Plattform, mit der Sie Code ausführen können, ohne die Infrastruktur verwalten zu müssen. Cloud Run bietet integriertes Autoscaling, mit dem die Anzahl der Instanzen automatisch an den eingehenden Traffic angepasst wird. Wenn das Trafficvolumen zunimmt, skaliert Cloud Run die Anzahl der Instanzen nach oben, um die Last zu bewältigen. Wenn der Traffic abnimmt, skaliert Cloud Run die Anzahl der Instanzen herunter, um die Kosten zu senken.

Mit diesen Autoscaling-Optionen können Sie dafür sorgen, dass Ihre cloudbasierten Anwendungen über die Ressourcen verfügen, die sie zur Verarbeitung unterschiedlicher Arbeitslasten benötigen. Gleichzeitig werden Überdimensionierung und unnötige Kosten vermieden. Autoscaling kann zu einer besseren Leistung, Kosteneinsparungen und einer effizienteren Nutzung von Cloud-Ressourcen führen.

Strategien zur Kostenoptimierung nutzen

Wenn Sie Ihre Cloud-Ausgaben optimieren, können Sie die IT-Budgets Ihrer Organisation effektiv verwalten. Diese Empfehlung bezieht sich auf den Governance-Fokusbereich der Betriebsbereitschaft.

Google Cloud bietet verschiedene Tools und Techniken, mit denen Sie Ihre Cloud-Kosten optimieren können. Mit diesen Tools und Techniken können Sie Ihre Cloud-Ausgaben optimal nutzen. Mit diesen Tools und Techniken können Sie Bereiche identifizieren, in denen Kosten gesenkt werden können, z. B. durch die Identifizierung von unterausgelasteten Ressourcen oder die Empfehlung kostengünstigerer Instanztypen. Google Cloud Optionen zur Optimierung von Cloud-Kosten sind unter anderem:

Rabatte für zugesicherte Nutzung sind Preisnachlässe für Nutzer, die sich verpflichten, für einen bestimmten Zeitraum ein Minimum an Ressourcen zu nutzen.
Rabatte für kontinuierliche Nutzung in Compute Engine bieten Rabatte für die konsistente Nutzung eines Dienstes.
Spot-VMs bieten Zugriff auf nicht verwendete VM-Kapazität zu geringeren Kosten als reguläre VMs.

Preismodelle können sich im Laufe der Zeit ändern und es können neue Funktionen eingeführt werden, die im Vergleich zu bestehenden Optionen eine bessere Leistung oder niedrigere Kosten bieten. Daher sollten Sie Preismodelle regelmäßig überprüfen und alternative Funktionen in Betracht ziehen. Wenn Sie sich über die neuesten Preismodelle und Funktionen auf dem Laufenden halten, können Sie fundierte Entscheidungen über Ihre Cloud-Architektur treffen, um Kosten zu minimieren.

DieGoogle Cloud-Tools zur Kostenverwaltung, z. B. Budgets und Benachrichtigungen, liefern wertvolle Informationen zu den Cloud-Ausgaben. Mit Budgets und Benachrichtigungen können Nutzer Budgets festlegen und Benachrichtigungen erhalten, wenn die Budgets überschritten werden. Mit diesen Tools können Nutzer ihre Cloud-Ausgaben im Blick behalten und Bereiche identifizieren, in denen sich Kosten senken lassen.

Ressourcennutzung und Kosten verfolgen

Mit Tags und Labels können Sie die Ressourcennutzung und ‑kosten nachverfolgen. Wenn Sie Ihren Cloud-Ressourcen wie Projekten, Abteilungen oder anderen relevanten Dimensionen Tags und Labels zuweisen, können Sie die Ressourcen kategorisieren und organisieren. So können Sie Ausgabenmuster für bestimmte Ressourcen überwachen und analysieren und Bereiche mit hoher Nutzung oder potenziellen Kosteneinsparungen identifizieren. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der operativen Bereitschaft: Governance und Tools.

Mit Tools wie Cloud Billing und Cost Management können Sie Ihre Ausgabenmuster umfassend nachvollziehen. Diese Tools bieten detaillierte Informationen zu Ihrer Cloud-Nutzung. Sie können damit Trends erkennen, Kosten prognostizieren und fundierte Entscheidungen treffen. Wenn Sie Verlaufsdaten und aktuelle Ausgabenmuster analysieren, können Sie die Schwerpunkte für Ihre Kostenoptimierungsmaßnahmen ermitteln.

Mit benutzerdefinierten Dashboards und Berichten können Sie Kostendaten visualisieren und detailliertere Einblicke in Ausgabentrends erhalten. Wenn Sie Dashboards mit relevanten Messwerten und Dimensionen anpassen, können Sie Leistungskennzahlen (KPIs) im Blick behalten und den Fortschritt bei der Erreichung Ihrer Kostenoptimierungsziele verfolgen. Berichte bieten detailliertere Analysen von Kostendaten. Mit Berichten können Sie die Daten nach bestimmten Zeiträumen oder Ressourcentypen filtern, um die zugrunde liegenden Faktoren zu ermitteln, die zu Ihren Cloud-Ausgaben beitragen.

Überprüfen und aktualisieren Sie Ihre Tags, Labels und Kostenanalysetools regelmäßig, damit Sie immer die neuesten Informationen zu Ihrer Cloud-Nutzung und Ihren Kosten haben. Wenn Sie sich auf dem Laufenden halten und Kostenanalysen oder proaktive Kostenprüfungen durchführen, können Sie unerwartete Ausgabensteigerungen schnell erkennen. So können Sie proaktive Entscheidungen treffen, um Cloud-Ressourcen zu optimieren und Kosten zu kontrollieren.

Kostenzuweisung und Budgetierung festlegen

Verantwortlichkeit und Transparenz beim Cloud-Kostenmanagement sind entscheidend für die Optimierung der Ressourcennutzung und die Gewährleistung der finanziellen Kontrolle. Diese Empfehlung bezieht sich auf den Governance-Fokusbereich der Betriebsbereitschaft.

Um Rechenschaftspflicht und Transparenz zu gewährleisten, benötigen Sie klare Mechanismen für die Kostenzuordnung und Rückbelastung. Durch die Zuweisung von Kosten an bestimmte Teams, Projekte oder Einzelpersonen kann Ihre Organisation dafür sorgen, dass jede dieser Einheiten für ihre Cloud-Nutzung verantwortlich ist. So wird das Verantwortungsbewusstsein gefördert und ein verantwortungsvoller Umgang mit Ressourcen angeregt. Außerdem können Sie mit Chargeback-Mechanismen Cloud-Kosten von internen Kunden zurückfordern, Anreize an die Leistung anpassen und die Haushaltsdisziplin fördern.

Die Festlegung von Budgets für verschiedene Teams oder Projekte ist ein weiterer wichtiger Aspekt der Cloud-Kostenverwaltung. Mit Budgets kann Ihre Organisation Ausgabenlimits festlegen und die tatsächlichen Ausgaben mit diesen Limits vergleichen. So können Sie proaktive Entscheidungen treffen, um unkontrollierte Ausgaben zu vermeiden. Wenn Sie realistische und erreichbare Budgets festlegen, können Sie dafür sorgen, dass Cloud-Ressourcen effizient und im Einklang mit den Geschäftszielen genutzt werden. Wenn Sie die tatsächlichen Ausgaben regelmäßig mit den Budgets vergleichen, können Sie Abweichungen erkennen und potenzielle Überschreitungen rechtzeitig beheben.

Zur Überwachung von Budgets können Sie Tools wie Cloud Billing-Budgets und ‑Benachrichtigungen verwenden. Diese Tools bieten Echtzeit-Einblicke in die Cloud-Ausgaben und benachrichtigen Stakeholder über potenzielle Überschreitungen. Mit diesen Funktionen können Sie Cloud-Kosten im Blick behalten und Korrekturmaßnahmen ergreifen, bevor es zu erheblichen Abweichungen kommt. Dieser proaktive Ansatz hilft, finanzielle Überraschungen zu vermeiden und dafür zu sorgen, dass Cloud-Ressourcen verantwortungsbewusst genutzt werden.

Änderungen automatisieren und verwalten

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Automatisierung und Verwaltung von Änderungen für Ihre Cloud-Arbeitslasten. Dazu gehören die Implementierung von Infrastructure as Code (IaC), die Einrichtung von Standardarbeitsanweisungen, die Implementierung eines strukturierten Änderungsmanagementprozesses sowie die Verwendung von Automatisierung und Orchestrierung.

Übersicht über die Grundsätze

Das Änderungsmanagement und die Automatisierung spielen eine entscheidende Rolle für reibungslose und kontrollierte Übergänge in Cloud-Umgebungen. Für ein effektives Änderungsmanagement müssen Sie Strategien und Best Practices anwenden, die Unterbrechungen minimieren und dafür sorgen, dass Änderungen nahtlos in bestehende Systeme integriert werden.

Effektives Änderungsmanagement und Automatisierung umfassen die folgenden grundlegenden Elemente:

Change Governance: Legen Sie klare Richtlinien und Verfahren für das Änderungsmanagement fest, einschließlich Genehmigungsprozessen und Kommunikationsplänen.
Risikobewertung: Ermitteln Sie potenzielle Risiken, die mit Änderungen verbunden sind, und mindern Sie sie durch Risikomanagementtechniken.
Tests und Validierung: Testen Sie Änderungen gründlich, um sicherzustellen, dass sie die funktionalen und Leistungsanforderungen erfüllen und potenzielle Regressionen minimieren.
Kontrollierte Bereitstellung: Änderungen kontrolliert implementieren, um sicherzustellen, dass Nutzer nahtlos in die neue Umgebung migriert werden. Bei Bedarf sind Mechanismen für ein nahtloses Rollback vorhanden.

Diese grundlegenden Elemente tragen dazu bei, die Auswirkungen von Änderungen zu minimieren und dafür zu sorgen, dass sich Änderungen positiv auf den Geschäftsbetrieb auswirken. Diese Elemente werden durch die Prozesse, Tools und Governance-Fokusbereiche der Betriebsbereitschaft dargestellt.

Empfehlungen

Wenn Sie Änderungen automatisieren und verwalten möchten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Schwerpunkte der Betriebsbereitschaft.

IaaS einführen

Infrastructure as Code (IaC) ist ein transformativer Ansatz für die Verwaltung von Cloud-Infrastruktur. Sie können die Cloud-Infrastruktur deklarativ definieren und verwalten, indem Sie Tools wie Terraform verwenden. Mit IaC können Sie für Konsistenz, Wiederholbarkeit und eine vereinfachte Änderungsverwaltung sorgen. Außerdem ermöglicht es schnellere und zuverlässigere Bereitstellungen. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Prozesse und Tools.

Im Folgenden sind die wichtigsten Vorteile der Einführung des IaC-Ansatzes für Ihre Cloud-Bereitstellungen aufgeführt:

Für Menschen lesbare Ressourcenkonfigurationen: Mit dem IaC-Ansatz können Sie Ihre Cloud-Infrastrukturressourcen in einem für Menschen lesbaren Format wie JSON oder YAML deklarieren. Infrastrukturadministratoren und ‑operatoren können die Infrastruktur einfach nachvollziehen und ändern und mit anderen zusammenarbeiten.
Konsistenz und Wiederholbarkeit: IaC ermöglicht Konsistenz und Wiederholbarkeit bei der Bereitstellung Ihrer Infrastruktur. Sie können dafür sorgen, dass Ihre Infrastruktur jedes Mal auf dieselbe Weise bereitgestellt und konfiguriert wird, unabhängig davon, wer die Bereitstellung vornimmt. Dieser Ansatz trägt dazu bei, Fehler zu reduzieren, und sorgt dafür, dass sich Ihre Infrastruktur immer in einem bekannten Zustand befindet.
Verantwortlichkeit und vereinfachte Fehlerbehebung: Der IaC-Ansatz trägt dazu bei, die Verantwortlichkeit zu verbessern und die Fehlerbehebung zu vereinfachen. Wenn Sie Ihren IaC-Code in einem Versionsverwaltungssystem speichern, können Sie Änderungen nachverfolgen und feststellen, wann und von wem Änderungen vorgenommen wurden. Bei Bedarf können Sie ganz einfach ein Rollback auf frühere Versionen durchführen.

Versionsverwaltung implementieren

Ein Versionskontrollsystem wie Git ist ein wichtiger Bestandteil des IaC-Prozesses. Es bietet robuste Funktionen für das Änderungsmanagement und die Risikominderung und wird daher häufig eingesetzt, entweder durch interne Entwicklung oder SaaS-Lösungen. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Governance und Tools.

Durch die Nachverfolgung von Änderungen an IaC-Code und -Konfigurationen bietet die Versionsverwaltung einen Einblick in die Entwicklung des Codes. So lässt sich die Auswirkung von Änderungen leichter nachvollziehen und potenzielle Probleme können einfacher erkannt werden. Diese verbesserte Sichtbarkeit fördert die Zusammenarbeit zwischen Teammitgliedern, die am selben IaC-Projekt arbeiten.

In den meisten Versionsverwaltungssystemen können Sie Änderungen bei Bedarf ganz einfach rückgängig machen. So lässt sich das Risiko unbeabsichtigter Folgen oder Fehler verringern. Durch die Verwendung von Tools wie Git in Ihrem IaC-Workflow können Sie die Prozesse für das Änderungsmanagement erheblich verbessern, die Zusammenarbeit fördern und Risiken minimieren. Dies führt zu einer effizienteren und zuverlässigeren IaC-Implementierung.

CI/CD-Pipelines erstellen

Pipelines für Continuous Integration und Continuous Delivery (CI/CD) optimieren den Prozess der Entwicklung und Bereitstellung von Cloud-Anwendungen. CI/CD-Pipelines automatisieren die Build-, Test- und Bereitstellungsphasen. So können Sie schneller und häufiger Releases mit verbesserter Qualitätssicherung veröffentlichen. Diese Empfehlung bezieht sich auf den Fokusbereich der betrieblichen Bereitschaft.

CI/CD-Pipelines sorgen dafür, dass Codeänderungen kontinuierlich in ein zentrales Repository integriert werden, in der Regel ein Versionskontrollsystem wie Git. Durch Continuous Integration lassen sich Probleme frühzeitig erkennen und beheben. Außerdem wird die Wahrscheinlichkeit von Fehlern oder Kompatibilitätsproblemen verringert.

Zum Erstellen und Verwalten von CI/CD-Pipelines für Cloud-Anwendungen können Sie Tools wie Cloud Build und Cloud Deploy verwenden.

Cloud Build ist ein vollständig verwalteter Build-Dienst, mit dem Entwickler Build-Schritte deklarativ definieren und ausführen können. Es lässt sich nahtlos in gängige Quellcodeverwaltungsplattformen einbinden und kann durch Ereignisse wie Code-Pushes und Pull-Anfragen ausgelöst werden.
Cloud Deploy ist ein serverloser Bereitstellungsdienst, der die Bereitstellung von Anwendungen in verschiedenen Umgebungen wie Test, Staging und Produktion automatisiert. Es bietet Funktionen wie Blau/Grün-Bereitstellungen, Trafficaufteilung und Rollback-Funktionen, die die Verwaltung und Überwachung von Anwendungsbereitstellungen erleichtern.

Durch die Integration von CI/CD-Pipelines in Versionskontrollsysteme und Testframeworks können Sie die Qualität und Zuverlässigkeit Ihrer Cloudanwendungen sicherstellen. Durch das Ausführen automatisierter Tests im Rahmen des CI/CD-Prozesses können Entwicklungsteams Probleme schnell erkennen und beheben, bevor der Code in der Produktionsumgebung bereitgestellt wird. Diese Integration trägt dazu bei, die allgemeine Stabilität und Leistung Ihrer Cloud-Anwendungen zu verbessern.

Tools zur Konfigurationsverwaltung verwenden

Tools wie Puppet, Chef, Ansible und VM Manager helfen Ihnen, die Konfiguration und Verwaltung von Cloud-Ressourcen zu automatisieren. Mit diesen Tools können Sie für Ressourcenkonsistenz und Compliance in Ihren Cloud-Umgebungen sorgen. Diese Empfehlung bezieht sich auf den Fokusbereich der operativen Bereitschaft.

Die Automatisierung der Konfiguration und Verwaltung von Cloud-Ressourcen bietet folgende Vorteile:

Deutliche Reduzierung des Risikos manueller Fehler: Bei manuellen Prozessen ist die Wahrscheinlichkeit von Fehlern aufgrund menschlichen Versagens höher. Tools zur Konfigurationsverwaltung verringern dieses Risiko, indem sie Prozesse automatisieren, sodass Konfigurationen konsistent und genau auf alle Cloud-Ressourcen angewendet werden. Diese Automatisierung kann die Zuverlässigkeit und Stabilität der Cloud-Umgebung verbessern.
Steigerung der betrieblichen Effizienz: Durch die Automatisierung sich wiederholender Aufgaben kann Ihre Organisation IT-Mitarbeiter für strategischere Initiativen freistellen. Diese Automatisierung kann zu einer höheren Produktivität, Kosteneinsparungen und einer besseren Reaktionsfähigkeit auf sich ändernde Geschäftsanforderungen führen.
Vereinfachte Verwaltung komplexer Cloud-Infrastruktur: Wenn Cloud-Umgebungen an Größe und Komplexität zunehmen, kann die Verwaltung der Ressourcen immer schwieriger werden. Tools zur Konfigurationsverwaltung bieten eine zentrale Plattform zum Verwalten von Cloud-Ressourcen. Die Tools erleichtern das Nachverfolgen von Konfigurationen, das Erkennen von Problemen und das Implementieren von Änderungen. Die Verwendung dieser Tools kann zu einer besseren Transparenz, Kontrolle und Sicherheit Ihrer Cloud-Umgebung führen.

Tests automatisieren

Durch die Integration automatisierter Tests in Ihre CI/CD-Pipelines können Sie die Qualität und Zuverlässigkeit Ihrer Cloud-Anwendungen sicherstellen. Wenn Sie Änderungen vor der Bereitstellung validieren, können Sie das Risiko von Fehlern und Regressionen erheblich reduzieren. Dies führt zu einem stabileren und robusteren Softwaresystem. Diese Empfehlung ist für die folgenden Schwerpunkte der operativen Bereitschaft relevant: Prozesse und Tools.

Im Folgenden sind die wichtigsten Vorteile der Einbindung automatisierter Tests in Ihre CI/CD-Pipelines aufgeführt:

Früherkennung von Fehlern: Automatisierte Tests helfen, Fehler frühzeitig im Entwicklungsprozess zu erkennen, bevor sie in der Produktion zu größeren Problemen führen können. Diese Funktion spart Zeit und Ressourcen, da kostspielige Überarbeitungen und Fehlerkorrekturen in späteren Phasen des Entwicklungsprozesses vermieden werden.
Hochwertiger und standardbasierter Code: Automatisierte Tests können dazu beitragen, die allgemeine Qualität Ihres Codes zu verbessern, indem sie sicherstellen, dass der Code bestimmte Standards und Best Practices erfüllt. Dies führt zu wartungsfreundlicheren und zuverlässigeren Anwendungen, die weniger anfällig für Fehler sind.

Sie können verschiedene Arten von Testverfahren in CI/CD-Pipelines verwenden. Jeder Testtyp dient einem bestimmten Zweck.

Beim Unittest werden einzelne Codeeinheiten wie Funktionen oder Methoden getestet, um sicherzustellen, dass sie wie erwartet funktionieren.
Beim Integrationstest werden die Interaktionen zwischen verschiedenen Komponenten oder Modulen Ihrer Anwendung getestet, um zu prüfen, ob sie ordnungsgemäß zusammenarbeiten.
End-to-End-Tests werden häufig zusammen mit Unit- und Integrationstests verwendet. Bei End-to-End-Tests werden reale Szenarien simuliert, um die Anwendung als Ganzes zu testen. So lässt sich sicherstellen, dass die Anwendung die Anforderungen Ihrer Endnutzer erfüllt.

Um automatisierte Tests effektiv in Ihre CI/CD-Pipelines zu integrieren, müssen Sie geeignete Testtools und ‑frameworks auswählen. Es gibt viele verschiedene Optionen, die jeweils ihre eigenen Stärken und Schwächen haben. Außerdem müssen Sie eine klare Teststrategie festlegen, in der die Arten der durchzuführenden Tests, die Häufigkeit der Tests und die Kriterien für das Bestehen oder Nichtbestehen eines Tests beschrieben werden. Wenn Sie diese Empfehlungen befolgen, können Sie dafür sorgen, dass Ihr automatisierter Testprozess effizient und effektiv ist. Ein solcher Prozess liefert wertvolle Erkenntnisse über die Qualität und Zuverlässigkeit Ihrer Cloud-Anwendungen.

Kontinuierliche Verbesserung und Innovation

Dieses Prinzip im Bereich „Operative Exzellenz“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur kontinuierlichen Optimierung des Cloud-Betriebs und zur Förderung von Innovationen.

Übersicht über die Grundsätze

Um die Cloud kontinuierlich zu verbessern und Innovationen voranzutreiben, müssen Sie sich auf kontinuierliches Lernen, Experimentieren und Anpassen konzentrieren. So können Sie neue Technologien ausprobieren und bestehende Prozesse optimieren. Außerdem wird eine Kultur der Exzellenz gefördert, die es Ihrem Unternehmen ermöglicht, eine führende Position in der Branche zu erreichen und zu halten.

Durch kontinuierliche Verbesserung und Innovation können Sie die folgenden Ziele erreichen:

Innovation beschleunigen: Entdecken Sie neue Technologien und Dienste, um die Leistungsfähigkeit zu steigern und sich von der Konkurrenz abzuheben.
Kosten senken: Ineffizienzen durch Initiativen zur Prozessoptimierung identifizieren und beseitigen.
Agilität steigern: Schnell auf sich ändernde Marktanforderungen und Kundenbedürfnisse reagieren.
Entscheidungsfindung verbessern: Mithilfe von Daten und Analysen wertvolle Statistiken erhalten, um datengestützte Entscheidungen zu treffen.

Unternehmen, die das Prinzip der kontinuierlichen Verbesserung und Innovation anwenden, können das volle Potenzial der Cloudumgebung ausschöpfen und nachhaltiges Wachstum erzielen. Dieses Prinzip bezieht sich hauptsächlich auf den Fokusbereich „Betriebsbereitschaft“ der Workforce. Eine Innovationskultur ermöglicht es Teams, mit neuen Tools und Technologien zu experimentieren, um die Fähigkeiten zu erweitern und die Kosten zu senken.

Empfehlungen

Die Empfehlungen in den folgenden Abschnitten können Ihnen helfen, Ihre Cloud-Arbeitslasten kontinuierlich zu verbessern und zu optimieren. Jede Empfehlung in diesem Dokument bezieht sich auf einen oder mehrere der Fokusbereiche für die operative Bereitschaft.

Lernkultur fördern

Ermutigen Sie die Teams, zu experimentieren, Wissen zu teilen und kontinuierlich zu lernen. Schaffen Sie eine Kultur, in der Fehler als Chancen für Wachstum und Verbesserung betrachtet werden. Diese Empfehlung bezieht sich auf den Fokusbereich der operativen Bereitschaft.

Wenn Sie eine Lernkultur fördern, können Teams aus Fehlern lernen und schnell iterieren. Dieser Ansatz ermutigt Teammitglieder, Risiken einzugehen, mit neuen Ideen zu experimentieren und die Grenzen ihrer Arbeit zu erweitern. Außerdem wird eine psychologisch sichere Umgebung geschaffen, in der sich Einzelpersonen wohlfühlen, wenn sie über Fehler sprechen und daraus lernen. Das Teilen auf diese Weise führt zu einer offeneren und kollaborativeren Umgebung.

Schaffen Sie Möglichkeiten für Teams, Wissen auszutauschen und voneinander zu lernen, um den Wissensaustausch und das kontinuierliche Lernen zu fördern. Dies können Sie durch informelle und formelle Lernveranstaltungen und Konferenzen erreichen.

Wenn Sie eine Kultur des Experimentierens, des Wissensaustauschs und des kontinuierlichen Lernens fördern, können Sie eine Umgebung schaffen, in der Teams in die Lage versetzt werden, Risiken einzugehen, Innovationen zu entwickeln und zu wachsen. Dies kann zu einer höheren Produktivität, einer besseren Problemlösung und einer engagierteren und motivierteren Belegschaft führen. Wenn Sie eine Kultur fördern, in der niemand für Fehler verantwortlich gemacht wird, können Sie einen sicheren Ort für Mitarbeiter schaffen, an dem sie aus Fehlern lernen und zum kollektiven Wissen des Teams beitragen können. Diese Kultur führt letztendlich zu einer widerstandsfähigeren und anpassungsfähigeren Belegschaft, die besser gerüstet ist, um Herausforderungen zu meistern und langfristig erfolgreich zu sein.

Regelmäßige Retrospektiven durchführen

Retrospektiven bieten Teams die Möglichkeit, ihre Erfahrungen zu reflektieren, herauszufinden, was gut gelaufen ist, und zu ermitteln, was verbessert werden kann. Durch Retrospektiven nach Projekten oder schwerwiegenden Vorfällen können Teams aus Erfolgen und Misserfolgen lernen und ihre Prozesse und Praktiken kontinuierlich verbessern. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der Betriebsbereitschaft: Prozesse und Governance.

Eine effektive Methode, eine Retrospektive zu strukturieren, ist das Start-Stop-Continue-Modell:

Start: In der Start-Phase der Retrospektive identifizieren die Teammitglieder neue Praktiken, Prozesse und Verhaltensweisen, die ihrer Meinung nach ihre Arbeit verbessern können. Sie besprechen, warum die Änderungen erforderlich sind und wie sie umgesetzt werden können.
Beenden: In der Phase Beenden identifizieren und eliminieren die Teammitglieder Praktiken, Prozesse und Verhaltensweisen, die nicht mehr effektiv sind oder den Fortschritt behindern. Sie besprechen, warum diese Änderungen erforderlich sind und wie sie umgesetzt werden können.
Fortsetzen: In der Phase Fortsetzen identifizieren die Teammitglieder Praktiken, Prozesse und Verhaltensweisen, die gut funktionieren und fortgesetzt werden müssen. Sie besprechen, warum diese Elemente wichtig sind und wie sie gestärkt werden können.

Durch die Verwendung eines strukturierten Formats wie dem Start-Stop-Continue-Modell können Teams dafür sorgen, dass Retrospektiven produktiv und fokussiert sind. Dieses Modell hilft, die Diskussion zu erleichtern, die wichtigsten Erkenntnisse zu ermitteln und umsetzbare Schritte für zukünftige Verbesserungen zu identifizieren.

Über Cloud-Technologien auf dem Laufenden bleiben

Um das Potenzial von Google Cloud -Diensten optimal zu nutzen, müssen Sie über die neuesten Entwicklungen, Funktionen und Best Practices auf dem Laufenden bleiben. Diese Empfehlung bezieht sich auf den Fokusbereich der betrieblichen Bereitschaft.

Die Teilnahme an relevanten Konferenzen, Webinaren und Schulungen ist eine gute Möglichkeit, Ihr Wissen zu erweitern. Bei diesen Veranstaltungen können Sie von Google Cloud Experten lernen, neue Funktionen kennenlernen und sich mit Branchenkollegen austauschen, die möglicherweise ähnliche Herausforderungen haben. In diesen Sessions erfahren Sie, wie Sie neue Funktionen effektiv nutzen, Ihre Cloud-Vorgänge optimieren und Innovationen in Ihrem Unternehmen vorantreiben können.

Damit Ihre Teammitglieder mit Cloud-Technologien Schritt halten, sollten Sie sie ermutigen, Zertifizierungen zu erwerben und an Schulungen teilzunehmen. Google Cloudbietet eine Vielzahl von Zertifizierungen, mit denen Fähigkeiten und Kenntnisse in bestimmten Cloud-Bereichen nachgewiesen werden. Mit diesen Zertifizierungen beweisen Sie Ihr Engagement für Spitzenleistungen und Ihre Kompetenz im Bereich Cloud-Technologien. Die von Google Cloud und unseren Partnern angebotenen Schulungen gehen tiefer auf bestimmte Themen ein. Sie vermitteln direkte Erfahrungen und praktische Fähigkeiten, die sofort auf reale Projekte angewendet werden können. Wenn Sie in die berufliche Weiterentwicklung Ihres Teams investieren, können Sie eine Kultur des kontinuierlichen Lernens fördern und dafür sorgen, dass alle die erforderlichen Fähigkeiten haben, um in der Cloud erfolgreich zu sein.

Aktiv Feedback einholen und berücksichtigen

Feedback von Nutzern, Stakeholdern und Teammitgliedern einholen Mithilfe des Feedbacks können Sie Verbesserungsmöglichkeiten für Ihre Cloud-Lösungen ermitteln. Diese Empfehlung bezieht sich auf den Fokusbereich der Einsatzbereitschaft für Mitarbeiter.

Anhand des Feedbacks, das Sie erhalten, können Sie die sich entwickelnden Bedürfnisse, Probleme und Erwartungen der Nutzer Ihrer Lösungen besser verstehen. Dieses Feedback ist eine wertvolle Grundlage für Verbesserungen und die Priorisierung zukünftiger Optimierungen. Sie können verschiedene Mechanismen verwenden, um Feedback zu sammeln:

Umfragen sind eine effektive Methode, um quantitative Daten von einer großen Anzahl von Nutzern und Stakeholdern zu erheben.
Nutzerinterviews bieten die Möglichkeit, detaillierte qualitative Daten zu erheben. Mithilfe von Interviews können Sie die spezifischen Herausforderungen und Erfahrungen einzelner Nutzer nachvollziehen.
Feedbackformulare in den Cloud-Lösungen bieten Nutzern eine bequeme Möglichkeit, sofort Feedback zu ihren Erfahrungen zu geben.
Regelmäßige Besprechungen mit Teammitgliedern können das Sammeln von Feedback zu technischen Aspekten und Implementierungsherausforderungen erleichtern.

Das Feedback, das Sie über diese Mechanismen erhalten, muss analysiert und zusammengefasst werden, um gemeinsame Themen und Muster zu identifizieren. Diese Analyse kann Ihnen helfen, zukünftige Verbesserungen basierend auf den Auswirkungen und der Machbarkeit der vorgeschlagenen Verbesserungen zu priorisieren. Wenn Sie auf die Bedürfnisse und Probleme eingehen, die durch Feedback ermittelt werden, können Sie dafür sorgen, dass Ihre Cloud-Lösungen weiterhin den sich entwickelnden Anforderungen Ihrer Nutzer und Stakeholder entsprechen.

Fortschritt messen und verfolgen

Leistungsindikatoren (KPIs) und Messwerte sind entscheidend, um den Fortschritt zu verfolgen und die Effektivität Ihrer Cloud-Vorgänge zu messen. KPIs sind quantifizierbare Messwerte, die die Gesamtleistung widerspiegeln. Messwerte sind spezifische Datenpunkte, die zur Berechnung von KPIs beitragen. Sehen Sie sich die Messwerte regelmäßig an, um Verbesserungsmöglichkeiten zu finden und den Fortschritt zu messen. So können Sie Ihre Cloud-Umgebung kontinuierlich verbessern und optimieren. Diese Empfehlung bezieht sich auf die folgenden Schwerpunkte der Betriebsbereitschaft: Governance und Prozesse.

Ein Hauptvorteil der Verwendung von KPIs und Messwerten besteht darin, dass Ihr Unternehmen einen datengesteuerten Ansatz für Cloud-Vorgänge verfolgen kann. Durch die Erfassung und Analyse von Betriebsdaten können Sie fundierte Entscheidungen darüber treffen, wie Sie die Cloud-Umgebung verbessern können. Mit diesem datengesteuerten Ansatz können Sie Trends, Muster und Anomalien erkennen, die ohne systematische Messwerte möglicherweise nicht sichtbar wären.

Zum Erheben und Analysieren von Betriebsdaten können Sie Tools wie Cloud Monitoring und BigQuery verwenden. Cloud Monitoring ermöglicht die Echtzeitüberwachung von Cloud-Ressourcen und ‑Diensten. Mit BigQuery können Sie die Daten, die Sie durch Monitoring erfassen, speichern und analysieren. Mit diesen Tools können Sie benutzerdefinierte Dashboards erstellen, um wichtige Messwerte und Trends zu visualisieren.

Betriebliche Dashboards bieten eine zentrale Ansicht der wichtigsten Messwerte, sodass Sie schnell Bereiche erkennen können, die Aufmerksamkeit erfordern. Ein Dashboard kann beispielsweise Messwerte wie CPU-Auslastung, Speichernutzung, Netzwerk-Traffic und Latenz für eine bestimmte Anwendung oder einen bestimmten Dienst enthalten. Wenn Sie diese Messwerte im Blick behalten, können Sie potenzielle Probleme schnell erkennen und Maßnahmen ergreifen, um sie zu beheben.

Well-Architected Framework: Säule „Operative Exzellenz“ Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Grundprinzipien

Beitragende

Mit CloudOps für operative Bereitschaft und Leistung sorgen

Übersicht über die Grundsätze

Schwerpunkte der operativen Einsatzbereitschaft

Empfehlungen

SLOs und SLAs definieren

Umfassende Beobachtbarkeit implementieren

Leistungs- und Lasttests implementieren

Kapazität planen und verwalten

Kontinuierlich überwachen und optimieren

Vorfälle und Probleme verwalten

Übersicht über die Grundsätze

Empfehlungen

Klare Verfahren für die Reaktion auf Vorfälle festlegen

Vorfallmanagement zentralisieren

Gründliche Überprüfungen nach Vorfällen durchführen

Wissensdatenbank pflegen

Reaktion auf Vorfälle automatisieren

Cloud-Ressourcen verwalten und optimieren

Übersicht über die Grundsätze

Empfehlungen

Ressourcen richtig dimensionieren

Autoscaling verwenden

Strategien zur Kostenoptimierung nutzen

Ressourcennutzung und Kosten verfolgen

Kostenzuweisung und Budgetierung festlegen

Änderungen automatisieren und verwalten

Übersicht über die Grundsätze

Empfehlungen

IaaS einführen

Versionsverwaltung implementieren

CI/CD-Pipelines erstellen

Tools zur Konfigurationsverwaltung verwenden

Tests automatisieren

Kontinuierliche Verbesserung und Innovation

Übersicht über die Grundsätze

Empfehlungen

Lernkultur fördern

Regelmäßige Retrospektiven durchführen

Über Cloud-Technologien auf dem Laufenden bleiben

Aktiv Feedback einholen und berücksichtigen

Fortschritt messen und verfolgen

Well-Architected Framework: Säule „Operative Exzellenz“