Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework gibt Empfehlungen, mit denen Sie proaktiv Bereiche identifizieren können, in denen Fehler und Ausfälle auftreten können.
Dieses Prinzip ist für den Beobachtungsschwerpunkt der Zuverlässigkeit relevant.
Prinzip – Übersicht
Damit Ihre Arbeitslasten inGoogle Cloudzuverlässig und zuverlässig sind, müssen Sie mithilfe von Messwerten, Logs und Traces effektive Beobachtbarkeit implementieren.
- Messwerte sind numerische Messungen von Aktivitäten, die Sie für Ihre Anwendung in bestimmten Zeitintervallen verfolgen möchten. Beispielsweise können Sie technische Messwerte wie die Anforderungsrate und Fehlerrate verfolgen, die als Service Level Indicators (SLIs) verwendet werden können. Möglicherweise müssen Sie auch anwendungsspezifische Geschäftsmesswerte wie aufgegebene Bestellungen und erhaltene Zahlungen verfolgen.
- Logs sind Datensätze mit Zeitstempeln diskreter Ereignisse, die in einer Anwendung oder einem System auftreten. Das Ereignis kann ein Fehler, ein Fehler oder eine Statusänderung sein. Logs können Messwerte enthalten und Sie können auch Logs für SLIs verwenden.
- Ein Trace stellt den Weg eines einzelnen Nutzers oder einer einzelnen Transaktion durch mehrere separate Anwendungen oder die Komponenten einer Anwendung dar. Diese Komponenten können beispielsweise Mikrodienste sein. Mit Traces können Sie verfolgen, welche Komponenten in den Fahrten verwendet wurden, wo es Engpässe gibt und wie lange die Fahrten gedauert haben.
Mit Messwerten, Logs und Traces können Sie Ihr System kontinuierlich überwachen. Ein umfassendes Monitoring hilft Ihnen herauszufinden, wo und warum Fehler aufgetreten sind. Sie können auch potenzielle Fehler erkennen, bevor Fehler auftreten.
Empfehlungen
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um potenzielle Fehler effizient zu erkennen.
Umfassende Einblicke erhalten
Mit Cloud Monitoring und Cloud Logging können Sie wichtige Messwerte wie Antwortzeiten und Fehlerraten verfolgen. Mit diesen Tools können Sie auch dafür sorgen, dass die Messwerte konsistent die Anforderungen Ihrer Arbeitslast erfüllen.
Für datengestützte Entscheidungen sollten Sie Standarddienstmesswerte analysieren, um die Abhängigkeiten von Komponenten und deren Auswirkungen auf die Gesamtleistung der Arbeitslast zu verstehen.
Erstellen und veröffentlichen Sie mit dem Google Cloud SDK eigene Messwerte, um Ihre Monitoringstrategie anzupassen.
Proaktive Fehlerbehebung durchführen
Implementieren Sie eine robuste Fehlerbehandlung und aktivieren Sie das Logging für alle Komponenten Ihrer Arbeitslasten in Google Cloud. Aktivieren Sie Logs wie Zugriffslogs von Cloud Storage und VPC-Flusslogs.
Berücksichtigen Sie beim Konfigurieren des Loggings die damit verbundenen Kosten. Zur Kontrolle der Logging-Kosten können Sie in den Logsenken Ausschlussfilter konfigurieren, um das Speichern bestimmter Logs auszuschließen.
Ressourcennutzung optimieren
Überwachen Sie die CPU-Nutzung, Netzwerk-E/A-Messwerte und Laufwerk-E/A-Messwerte, um unter- und überdimensionierte Ressourcen in Diensten wie GKE, Compute Engine und Dataproc zu erkennen. Eine vollständige Liste der unterstützten Dienste finden Sie in der Übersicht zu Cloud Monitoring.
Benachrichtigungen priorisieren
Konzentrieren Sie sich bei Benachrichtigungen auf kritische Messwerte, legen Sie geeignete Schwellenwerte fest, um die Ermüdung von Benachrichtigungen zu minimieren, und sorgen Sie für zeitnahe Reaktionen auf wichtige Probleme. Mit diesem gezielten Ansatz können Sie die Zuverlässigkeit von Arbeitslasten proaktiv aufrechterhalten. Weitere Informationen finden Sie unter Benachrichtigungen.