Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Last reviewed 2024-12-30 UTC
Die Säule „Zuverlässigkeit“ im Google Cloud Well-Architected Framework bietet Prinzipien und Empfehlungen, mit denen Sie zuverlässige Arbeitslasten in Google Cloudentwerfen, bereitstellen und verwalten können.
Dieses Dokument richtet sich an Cloud-Architekten, Entwickler, Plattformtechniker, Administratoren und Site Reliability Engineers.
Zuverlässigkeit ist die Fähigkeit eines Systems, seine beabsichtigten Funktionen unter den definierten Bedingungen konsistent auszuführen und einen unterbrechungsfreien Dienst aufrechtzuerhalten. Best Practices für die Zuverlässigkeit umfassen Redundanz, fehlertolerantes Design, Monitoring und automatisierte Wiederherstellungsprozesse.
Resilienz ist die Fähigkeit des Systems, Fehler oder unerwartete Störungen zu überstehen und sich davon zu erholen, während die Leistung aufrechterhalten wird.Google Cloud -Funktionen wie Bereitstellungen in mehreren Regionen, automatische Back-ups und Lösungen für die Notfallwiederherstellung können Ihnen helfen, die Resilienz Ihres Systems zu verbessern.
Zuverlässigkeit ist aus vielen Gründen wichtig für Ihre Cloud-Strategie, unter anderem aus den folgenden:
Minimale Ausfallzeiten: Ausfallzeiten können zu Umsatzverlusten, geringerer Produktivität und Reputationsschäden führen. Robuste Architekturen können dazu beitragen, dass Systeme auch bei Ausfällen weiter funktionieren oder sich effizient von Ausfällen erholen können.
Verbesserte Nutzerfreundlichkeit: Nutzer erwarten nahtlose Interaktionen mit Technologie. Robuste Systeme können dazu beitragen, eine gleichbleibende Leistung und Verfügbarkeit aufrechtzuerhalten, und bieten auch bei hoher Nachfrage oder unerwarteten Problemen einen zuverlässigen Dienst.
Datenintegrität: Fehler können zu Datenverlust oder Datenbeschädigung führen.
In resilienten Systemen werden Mechanismen wie Sicherungen, Redundanz und Replikation implementiert, um Daten zu schützen und dafür zu sorgen, dass sie korrekt und zugänglich bleiben.
Aufrechterhaltung des Geschäftsbetriebs: Ihr Unternehmen ist für kritische Vorgänge auf Technologie angewiesen. Robuste Architekturen können dazu beitragen, die Kontinuität nach einem katastrophalen Ausfall sicherzustellen. So können Geschäftsfunktionen ohne größere Unterbrechungen fortgesetzt werden und eine schnelle Wiederherstellung wird unterstützt.
Compliance: In vielen Branchen gibt es behördliche Anforderungen an die Systemverfügbarkeit und den Datenschutz. Resiliente Architekturen können Ihnen helfen, diese Standards zu erfüllen, indem sie dafür sorgen, dass Systeme betriebsbereit und sicher bleiben.
Niedrigere langfristige Kosten: Robuste Architekturen erfordern Vorabinvestitionen. Die Robustheit kann jedoch dazu beitragen, die Kosten im Laufe der Zeit zu senken, indem teure Ausfallzeiten verhindert, reaktive Korrekturen vermieden und eine effizientere Ressourcennutzung ermöglicht wird.
Organisatorische Denkweise
Damit Ihre Systeme zuverlässig sind, benötigen Sie einen Plan und eine etablierte Strategie.
Diese Strategie muss Schulungen und die Befugnis umfassen, Zuverlässigkeit neben anderen Initiativen zu priorisieren.
Machen Sie deutlich, dass die gesamte Organisation für die Zuverlässigkeit verantwortlich ist, einschließlich Entwicklung, Produktmanagement, Betrieb, Plattformentwicklung und Site Reliability Engineering (SRE).
Auch die geschäftsorientierten Gruppen wie Marketing und Vertrieb können die Zuverlässigkeit beeinflussen.
Jedes Team muss die Zuverlässigkeitsziele und Risiken seiner Anwendungen kennen. Die Teams müssen für diese Anforderungen verantwortlich sein. Konflikte zwischen Zuverlässigkeit und regulärer Produktfeature-Entwicklung müssen priorisiert und entsprechend eskaliert werden.
Planen und verwalten Sie die Zuverlässigkeit ganzheitlich für alle Ihre Funktionen und Teams.
Erwägen Sie die Einrichtung eines Cloud Center of Excellence (CCoE), das eine Säule für Zuverlässigkeit umfasst. Weitere Informationen finden Sie unter Cloud Center of Excellence zur Optimierung der Cloud-Migration Ihrer Organisation.
Schwerpunkte für Zuverlässigkeit
Die Aktivitäten, die Sie zum Entwerfen, Bereitstellen und Verwalten eines zuverlässigen Systems ausführen, lassen sich in die folgenden Schwerpunktbereiche einteilen. Jedes der Zuverlässigkeitsprinzipien und ‑empfehlungen in dieser Säule bezieht sich auf einen dieser Schwerpunktbereiche.
Umfang: Führen Sie eine detaillierte Analyse der Architektur Ihres Systems durch, um es zu verstehen. Sie müssen die Komponenten, ihre Funktionsweise und Interaktion, den Fluss von Daten und Aktionen durch das System und mögliche Fehlerquellen verstehen. Potenzielle Fehler, Engpässe und Risiken identifizieren, damit Sie Maßnahmen ergreifen können, um diese Probleme zu beheben.
Beobachtung: Um Systemausfälle zu vermeiden, sollten Sie eine umfassende und kontinuierliche Beobachtung und Überwachung implementieren. So können Sie Trends erkennen und potenzielle Probleme proaktiv identifizieren.
Reaktion: Um die Auswirkungen von Fehlern zu reduzieren, müssen Sie angemessen reagieren und sich effizient erholen. Automatisierte Antworten können auch dazu beitragen, die Auswirkungen von Fehlern zu verringern. Trotz Planung und Kontrollen können Fehler auftreten.
Lernen: Um zu verhindern, dass Fehler wieder auftreten, sollten Sie aus jeder Erfahrung lernen und entsprechende Maßnahmen ergreifen.
Grundprinzipien
Die Empfehlungen in der Säule „Zuverlässigkeit“ des Well-Architected Framework sind den folgenden Grundprinzipien zugeordnet:
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2024-12-30 (UTC)."],[[["\u003cp\u003eThe Reliability pillar of the Google Cloud Well-Architected Framework offers guidelines for designing, deploying, and managing reliable workloads, focusing on maintaining consistent performance and uninterrupted service.\u003c/p\u003e\n"],["\u003cp\u003eKey aspects of reliability include resilience, the ability to recover from failures, and best practices such as redundancy, fault-tolerant design, monitoring, and automated recovery processes, all of which are critical for minimizing downtime and maintaining user satisfaction.\u003c/p\u003e\n"],["\u003cp\u003eEstablishing an organizational mindset where every team prioritizes reliability and is accountable for meeting targets is crucial for ensuring system dependability, and planning for reliability should be a holistic effort across the entire organization.\u003c/p\u003e\n"],["\u003cp\u003eThe core principles for reliability involve defining user-experience goals, setting realistic targets, building redundant systems, using horizontal scalability, utilizing observability, designing for graceful degradation, testing for recovery, and conducting thorough postmortems.\u003c/p\u003e\n"],["\u003cp\u003eThe focus areas for reliability are scoping, observation, response, and learning, which entail analyzing system architecture, monitoring for issues, responding to failures, and improving through experience.\u003c/p\u003e\n"]]],[],null,["# Well-Architected Framework: Reliability pillar\n\n| To view the content in the reliability pillar on a single page or to to get a PDF output of the content, see [View on one page](/architecture/framework/reliability/printable).\n\nThe reliability pillar in the\n[Google Cloud Well-Architected Framework](/architecture/framework)\nprovides principles and recommendations to help you design, deploy, and manage\nreliable workloads in Google Cloud.\n\nThis document is intended for cloud architects, developers, platform engineers,\nadministrators, and site reliability engineers.\n\n*Reliability* is a system's ability to consistently perform its intended\nfunctions within the defined conditions and maintain uninterrupted service. Best\npractices for reliability include redundancy, fault-tolerant design, monitoring,\nand automated recovery processes.\n\nAs a part of reliability, *resilience* is the system's ability to withstand and\nrecover from failures or unexpected disruptions, while maintaining performance.\nGoogle Cloud features, like\n[multi-regional deployments](/architecture/deployment-archetypes/multiregional),\nautomated backups, and disaster recovery solutions, can help you improve your\nsystem's resilience.\n\nReliability is important to your cloud strategy for many reasons, including the\nfollowing:\n\n- **Minimal downtime**: Downtime can lead to lost revenue, decreased productivity, and damage to reputation. Resilient architectures can help ensure that systems can continue to function during failures or recover efficiently from failures.\n- **Enhanced user experience**: Users expect seamless interactions with technology. Resilient systems can help maintain consistent performance and availability, and they provide reliable service even during high demand or unexpected issues.\n- **Data integrity**: Failures can cause data loss or data corruption. Resilient systems implement mechanisms such as backups, redundancy, and replication to protect data and ensure that it remains accurate and accessible.\n- **Business continuity**: Your business relies on technology for critical operations. Resilient architectures can help ensure continuity after a catastrophic failure, which enables business functions to continue without significant interruptions and supports a swift recovery.\n- **Compliance**: Many industries have regulatory requirements for system availability and data protection. Resilient architectures can help you to meet these standards by ensuring systems remain operational and secure.\n- **Lower long-term costs**: Resilient architectures require upfront investment, but resiliency can help to reduce costs over time by preventing expensive downtime, avoiding reactive fixes, and enabling more efficient resource use.\n\nOrganizational mindset\n----------------------\n\nTo make your systems reliable, you need a plan and an established strategy.\nThis strategy must include education and the authority to prioritize reliability\nalongside other initiatives.\n\nSet a clear expectation that the entire organization is responsible for\nreliability, including development, product management, operations, platform\nengineering, and\n[site reliability engineering (SRE)](/sre).\nEven the business-focused groups, like marketing and sales, can influence\nreliability.\n\nEvery team must understand the reliability targets and risks of their\napplications. The teams must be accountable to these requirements. Conflicts\nbetween reliability and regular product feature development must be prioritized\nand escalated accordingly.\n\nPlan and manage reliability holistically, across all your functions and teams.\nConsider setting up a Cloud Centre of Excellence (CCoE) that includes a\nreliability pillar. For more information, see\n[Optimize your organization's cloud journey with a Cloud Center of Excellence](https://cloud.google.com/blog/topics/training-certifications/optimize-your-organizations-cloud-journey-with-a-cloud-center-of-excellence).\n\nFocus areas for reliability\n---------------------------\n\nThe activities that you perform to design, deploy, and manage a reliable system\ncan be categorized in the following focus areas. Each of the reliability\nprinciples and recommendations in this pillar is relevant to one of these focus\nareas.\n\n- **Scoping**: To understand your system, conduct a detailed analysis of its architecture. You need to understand the components, how they work and interact, how data and actions flow through the system, and what could go wrong. Identify potential failures, bottlenecks, and risks, which helps you to take actions to mitigate those issues.\n- **Observation**: To help prevent system failures, implement comprehensive and continuous observation and monitoring. Through this observation, you can understand trends and identify potential problems proactively.\n- **Response**: To reduce the impact of failures, respond appropriately and recover efficiently. Automated responses can also help reduce the impact of failures. Even with planning and controls, failures can still occur.\n- **Learning**: To help prevent failures from recurring, learn from each experience, and take appropriate actions.\n\nCore principles\n---------------\n\nThe recommendations in the reliability pillar of the Well-Architected Framework are\nmapped to the following core principles:\n\n- [Define reliability based on user-experience goals](/architecture/framework/reliability/define-reliability-based-on-user-experience-goals)\n- [Set realistic targets for reliability](/architecture/framework/reliability/set-targets)\n- [Build highly available systems through resource redundancy](/architecture/framework/reliability/build-highly-available-systems)\n- [Take advantage of horizontal scalability](/architecture/framework/reliability/horizontal-scalability)\n- [Detect potential failures by using observability](/architecture/framework/reliability/observability)\n- [Design for graceful degradation](/architecture/framework/reliability/graceful-degradation)\n- [Perform testing for recovery from failures](/architecture/framework/reliability/perform-testing-for-recovery-from-failures)\n- [Perform testing for recovery from data loss](/architecture/framework/reliability/perform-testing-for-recovery-from-data-loss)\n- [Conduct thorough postmortems](/architecture/framework/reliability/conduct-postmortems)\n\n| **Note:** To learn about the building blocks of infrastructure reliability in Google Cloud, see [Google Cloud infrastructure reliability guide](/architecture/infra-reliability-guide).\n\nContributors\n------------\n\nAuthors:\n\n- [Laura Hyatt](https://www.linkedin.com/in/laura-hyatt) \\| Customer Engineer, FSI\n- [Jose Andrade](https://www.linkedin.com/in/jmandrade) \\| Customer Engineer, SRE Specialist\n- [Gino Pelliccia](https://www.linkedin.com/in/gino-pelliccia-13637025) \\| Principal Architect\n\n\u003cbr /\u003e\n\nOther contributors:\n\n- [Andrés-Leonardo Martínez-Ortiz](https://www.linkedin.com/in/almo) \\| Technical Program Manager\n- [Brian Kudzia](https://www.linkedin.com/in/brian-kudzia-3061558) \\| Enterprise Infrastructure Customer Engineer\n- [Daniel Lees](https://www.linkedin.com/in/daniellees) \\| Cloud Security Architect\n- [Filipe Gracio, PhD](https://www.linkedin.com/in/filipegracio) \\| Customer Engineer, AI/ML Specialist\n- [Gary Harmson](https://www.linkedin.com/in/garyharmson) \\| Principal Architect\n- [Kumar Dhanagopal](https://www.linkedin.com/in/kumardhanagopal) \\| Cross-Product Solution Developer\n- [Marwan Al Shawi](https://www.linkedin.com/in/marwanalshawi) \\| Partner Customer Engineer\n- [Nicolas Pintaux](https://www.linkedin.com/in/nicolaspintaux) \\| Customer Engineer, Application Modernization Specialist\n- [Radhika Kanakam](https://www.linkedin.com/in/radhika-kanakam-18ab876) \\| Program Lead, Google Cloud Well-Architected Framework\n- [Ryan Cox](https://www.linkedin.com/in/ryanlcox) \\| Principal Architect\n- [Samantha He](https://www.linkedin.com/in/samantha-he-05a98173) \\| Technical Writer\n- [Wade Holmes](https://www.linkedin.com/in/wholmes) \\| Global Solutions Director\n- [Zach Seils](https://www.linkedin.com/in/zachseils) \\| Networking Specialist\n\n\u003cbr /\u003e"]]