Best Practices für die Ereignisverwaltung

Bei der Verwaltung von Hochsaisons oder Ereignissen mit hohem Traffic in der Cloud gibt es drei wichtige Phasen:

  1. Vorbereitung: Führen Sie Aktivitäten und Aufgaben aus, um sich auf die Veranstaltung vorzubereiten, einschließlich einer Architekturüberprüfung, Kapazitätsplanung und Reservierungen.
  2. Ausführung: Beobachten Sie das Ereignis genau und reagieren Sie entsprechend.
  3. Analyse: Analysieren Sie nach der Veranstaltung, was gut funktioniert hat, was nicht und wie Sie zukünftige Veranstaltungen verbessern können.

Sie sollten während dieser Phasen bestimmte Best Practices kennen und befolgen, damit Sie Ihre Dienste mit minimaler oder gar keiner Ausfallzeit und ohne Beeinträchtigung der Leistung oder Nutzerfreundlichkeit während des Ereignisses bereitstellen können.

Vorbereitung: Den Planungsprozess der Veranstaltung beschreiben

In der Vorbereitungsphase für ein Ereignis mit Spitzenkapazität sollten Sie sich an Ihr Account-Team oder Ihren TAM wenden, um Ihre Architektur zu überprüfen, Diagramme, Zeitpläne und Checklisten für die Einführung zu erstellen, Dienstquoten basierend auf Ihrem erwarteten Traffic-Profil zu prüfen und die Gesamtauswirkungen auf Ihre Projekte zu ermitteln.

Die Planung sollte schon weit vor dem Veranstaltungstermin beginnen. In einigen Fällen kann es notwendig sein, schon Monate im Voraus mit der Planung zu beginnen, während Ihr Dienst noch in der Entwicklung ist. Stelle ein Team zusammen, das dir bei der Überprüfung deines vorgeschlagenen Ereignis-Workflows, der erwarteten Zielgruppe, deiner Anforderungen und Erfolgskriterien sowie der End-to-End-Medienbereitstellungskette helfen kann. Die Vorbereitungsphase sollte Risikobewertungen, Notfallpläne und eine Prüfung der Betriebsbereitschaft umfassen, um sicherzustellen, dass Ihr Workflow gut durchdacht ist.

Weitere Informationen finden Sie im Google Cloud Architecture Framework, das Empfehlungen für Architekten, Entwickler, Administratoren und andere Cloud-Experten enthält, die eine Cloud-Topologie entwerfen und betreiben, die sicher, effizient, stabil, leistungsstark und kostengünstig ist.

Ausführung: Während der Ausführung überwachen und reagieren

Wenn die Hauptsaison oder das Einführungsereignis beginnt, müssen Sie die Aktivitäten genau beobachten und bei Bedarf reagieren. Nachdem Sie in der Vorbereitungsphase Monitoring, Benachrichtigungen und Protokollierung eingerichtet haben, können Sie geschäftskritischen Traffic, Protokolle und Kontingentgrenzwerte überwachen und anhand dieser Informationen die Grundursachen ermitteln und Probleme schnell beheben. Weitere Informationen finden Sie unter Benachrichtigungen und Dashboards überprüfen.

Wenn Probleme auftreten, ist ein klar definierter Prozess für das Vorfallmanagement und die Eskalation wichtig, um den Aufwand und die Zeit für die Behebung des Problems zu reduzieren. Legen Sie einen Prozess für die Fehlerbehebung fest, falls Sie das noch nicht getan haben. Weitere Informationen finden Sie unter Probleme während der Veranstaltung beheben.

Analyse: Analyse überprüfen und dokumentieren

Wenn die Hauptsaison oder das Einführungsereignis vorbei ist, sollten Sie das Ereignis noch einmal durchgehen und analysieren. Dokumentieren Sie die gewonnenen Erkenntnisse, damit Sie sie auf das nächste wichtige Ereignis anwenden können.

Konzentrieren Sie sich auf die folgenden Bereiche:

  • Zeitachse: Hier sehen Sie, wann die Zugriffe angestiegen sind, und die wichtigsten Ereignisse (Spitzen) während des Ereigniszeitraums. Ermitteln Sie, wann Probleme aufgetreten sind.

  • Ursachenanalyse: Untersuchen Sie alle aufgetretenen Probleme. Gibt es etwas, was Sie oder Google Cloud anders hätten machen können? Ist das etwas, das Sie für das nächste Mal berücksichtigen sollten? Dokumentieren Sie alle gewonnenen Erkenntnisse und notwendigen Schritte, um sich für die Zukunft zu verbessern.

  • Vorhersagen mit tatsächlichen Werten vergleichen: Hier können Sie die Besucherzahlenprognose mit den tatsächlich erfassten Besucherzahlen vergleichen. Wo waren zusätzliche Ressourcen erforderlich? Wo wurden Ressourcen nicht ausreichend genutzt oder waren unnötig?

  • Retrospektive: Teilen Sie die vorherigen Informationen mit wichtigen Stakeholdern und besprechen Sie sie. Sorgen Sie für eine fehlerfreie Kultur, in der Sie davon ausgehen, dass alle Beteiligten gute Absichten hatten, und konzentrieren Sie sich darauf, die Ursachen zu ermitteln, ohne einzelne Personen oder Teams zu beschuldigen.

Nächste Schritte