Dieses Prinzip im Bereich „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, mit denen Sie proaktiv Bereiche identifizieren können, in denen Fehler und Ausfälle auftreten können.
Dieses Prinzip ist für den Fokusbereich Beobachtung der Zuverlässigkeit relevant.
Übersicht über die Grundsätze
Um die Zuverlässigkeit Ihrer Arbeitslasten inGoogle Cloudaufrechtzuerhalten und zu verbessern, müssen Sie eine effektive Beobachtbarkeit mithilfe von Messwerten, Logs und Traces implementieren.
- Messwerte sind numerische Messungen von Aktivitäten, die Sie für Ihre Anwendung in bestimmten Zeitintervallen erfassen möchten. Sie können beispielsweise technische Messwerte wie Anfragerate und Fehlerrate erfassen, die als Service Level Indicators (SLIs) verwendet werden können. Möglicherweise müssen Sie auch anwendungsspezifische Geschäftsmesswerte wie aufgegebene Bestellungen und eingegangene Zahlungen erfassen.
- Logs sind Zeitstempeldatensätze von einzelnen Ereignissen, die in einer Anwendung oder einem System auftreten. Das Ereignis kann ein Fehler, ein Fehler oder eine Zustandsänderung sein. Logs können Messwerte enthalten und Sie können Logs auch für SLIs verwenden.
- Ein Trace stellt den Weg eines einzelnen Nutzers oder einer einzelnen Transaktion durch mehrere separate Anwendungen oder die Komponenten einer Anwendung dar. Diese Komponenten können beispielsweise Mikrodienste sein. Mithilfe von Traces können Sie nachvollziehen, welche Komponenten in den Abläufen verwendet wurden, wo Engpässe bestehen und wie lange die Abläufe gedauert haben.
Messwerte, Logs und Traces helfen Ihnen, Ihr System kontinuierlich zu überwachen. Durch umfassende Überwachung können Sie herausfinden, wo und warum Fehler aufgetreten sind. Sie können auch potenzielle Fehler erkennen, bevor sie auftreten.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Abschnitten, um potenzielle Fehler effizient zu erkennen.
Umfassende Statistiken erhalten
Verwenden Sie Cloud Monitoring und Cloud Logging, um wichtige Messwerte wie Antwortzeiten und Fehlerraten zu erfassen. Mit diesen Tools können Sie auch dafür sorgen, dass die Messwerte den Anforderungen Ihrer Arbeitslast entsprechen.
Um datengestützte Entscheidungen zu treffen, analysieren Sie die Standardmesswerte für Dienste, um die Abhängigkeiten von Komponenten und ihre Auswirkungen auf die Gesamtleistung der Arbeitslast zu verstehen.
Wenn Sie Ihre Monitoringstrategie anpassen möchten, können Sie mit dem Google Cloud SDK eigene Messwerte erstellen und veröffentlichen.
Proaktive Fehlerbehebung durchführen
Implementieren Sie eine robuste Fehlerbehandlung und aktivieren Sie die Protokollierung für alle Komponenten Ihrer Arbeitslasten in Google Cloud. Aktivieren Sie Logs wie Cloud Storage-Zugriffslogs und VPC-Flusslogs.
Berücksichtigen Sie beim Konfigurieren der Protokollierung die damit verbundenen Kosten. Um die Logging-Kosten zu senken, können Sie Ausschlussfilter für die Logsenken konfigurieren, um bestimmte Logs vom Speichern auszuschließen.
Ressourcennutzung optimieren
Behalten Sie die CPU-Auslastung, die Netzwerk-E/A-Messwerte und die Laufwerk-E/A-Messwerte im Blick, um unter- und überdimensionierte Ressourcen in Diensten wie GKE, Compute Engine und Dataproc zu erkennen. Eine vollständige Liste der unterstützten Dienste finden Sie unter Cloud Monitoring-Übersicht.
Benachrichtigungen priorisieren
Konzentrieren Sie sich bei Benachrichtigungen auf wichtige Messwerte, legen Sie geeignete Grenzwerte fest, um die Anzahl der Benachrichtigungen zu minimieren, und sorgen Sie dafür, dass rechtzeitig auf wichtige Probleme reagiert wird. Mit diesem gezielten Ansatz können Sie die Zuverlässigkeit von Arbeitslasten proaktiv aufrechterhalten. Weitere Informationen finden Sie unter Benachrichtigungen – Übersicht.