KI- und ML-Arbeitslasten mit Google Cloud Managed Lustre optimieren

Last reviewed 2025-08-21 UTC

In diesem Dokument wird eine Referenzarchitektur beschrieben, die zeigt, wie Sie Google Cloud Managed Lustre verwenden können, um die Leistung von KI- und ML-Arbeitslasten zu optimieren, die in Google Kubernetes Engine (GKE) bereitgestellt werden. Die Zielgruppe für dieses Dokument umfasst Architekten und technische Fachkräfte, die Speicher für ihre KI-Arbeitslasten auf Google Cloudentwerfen, bereitstellen und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie mit dem ML-Lebenszyklus, den Prozessen und den Funktionen vertraut sind.

Managed Lustre ist ein vollständig Google Cloudverwaltetes, persistentes paralleles Dateisystem (Parallel File System, PFS), das auf EXAScaler Lustre von DDN basiert. Managed Lustre ist die empfohlene primäre Lösung für KI-Training und Prüfpunkt-Arbeitslasten. Sie eignet sich besonders für die Migration vorhandener Arbeitslasten von Lustre oder anderen PFS-Lösungen. Um die Ressourcennutzung zu maximieren, sollten Arbeitslasten, die Managed Lustre für das Training verwenden, auch dieselbe Instanz für die Bereitstellung und Inferenz verwenden.

Managed Lustre ist die empfohlene Lösung für KI-Arbeitslasten, die die folgenden Kriterien erfüllen:

  • Speicherkapazität im PiB-Bereich erforderlich.
  • Bietet Zugriff mit extrem niedriger Latenz (unter einer Millisekunde) und hohem Durchsatz von bis zu 1 TB/s.
  • Hohe Ein-/Ausgabevorgänge pro Sekunde (IOPS) bereitstellen.

Managed Lustre bietet die folgenden Vorteile für KI-Arbeitslasten:

  • Niedrigere Gesamtbetriebskosten für das Training: Managed Lustre verkürzt die Trainingszeit, da Daten effizient an Rechenknoten übertragen werden. Diese Funktion trägt dazu bei, die Gesamtbetriebskosten für das Trainieren von KI- und ML-Modellen zu senken.
  • Niedrigere Gesamtbetriebskosten für die Bereitstellung: Managed Lustre bietet leistungsstarke Funktionen, die das schnellere Laden von Modellen und die optimierte Inferenzbereitstellung ermöglichen. Diese Funktionen tragen dazu bei, die Computing-Kosten zu senken und die Ressourcennutzung zu verbessern.
  • Effiziente Ressourcennutzung: Mit Managed Lustre können Sie Checkpointing und Training auf einer einzigen Instanz kombinieren. Durch diese gemeinsame Nutzung von Ressourcen wird die effiziente Nutzung des Lese- und Schreibdurchsatzes in einem einzelnen, leistungsstarken Speichersystem maximiert.

Architektur

Das folgende Diagramm zeigt eine Beispielarchitektur für die Verwendung von Managed Lustre zur Optimierung der Leistung einer Arbeitslast für das Modelltraining und einer Arbeitslast für die Bereitstellung:

Eine Architektur verwendet Managed Lustre, um die Leistung einer Arbeitslast für das Modelltraining und einer Arbeitslast für die Bereitstellung zu optimieren.

Die im vorherigen Architekturdiagramm dargestellten Arbeitslasten werden in späteren Abschnitten detailliert beschrieben. Diese Architektur umfasst die folgenden Komponenten:

  • Google Kubernetes Engine-Cluster: GKE verwaltet die Compute-Hosts, auf denen Ihre KI- und ML-Modelltrainings- und ‑bereitstellungsprozesse ausgeführt werden. GKE verwaltet die zugrunde liegende Infrastruktur der Cluster, einschließlich der Steuerungsebene, Knoten und aller Systemkomponenten.
  • Kubernetes Scheduler: Die GKE-Steuerungsebene plant Arbeitslasten und verwaltet ihren Lebenszyklus, ihre Skalierung und ihre Upgrades.
  • VPC-Netzwerk (Virtual Private Cloud): Alle Google Cloud Ressourcen in der Architektur verwenden ein einzelnes VPC-Netzwerk.
  • Cloud Load Balancing: In dieser Architektur verteilt Cloud Load Balancing eingehende Inferenzanfragen von Anwendungsnutzern effizient an die Serving-Container im GKE-Cluster. Durch die Verwendung von Cloud Load Balancing wird eine hohe Verfügbarkeit, Skalierbarkeit und optimale Leistung für die KI- und ML-Anwendung gewährleistet. Weitere Informationen finden Sie unter Informationen zum GKE-Load-Balancing.
  • Graphics Processing Units (GPUs) oder Tensor Processing Units (TPUs): GPUs und TPUs sind spezielle Maschinenbeschleuniger, die die Leistung Ihrer KI- und ML-Arbeitslast verbessern. Um optimale Effizienz und Kompatibilität zu gewährleisten, sollten Sie für Ihre gesamte KI- und ML-Arbeitslast denselben Beschleunigertyp verwenden. Weitere Informationen zur Auswahl eines geeigneten Prozessortyps finden Sie weiter unten in diesem Dokument unter Beschleunigeroptionen.
  • Managed Lustre: Managed Lustre beschleunigt das KI- und ML-Training und die Bereitstellung durch ein leistungsstarkes, persistentes paralleles Dateisystem (PFS), das für niedrige Latenz und hohen Durchsatz optimiert ist. Im Vergleich zur alleinigen Verwendung von Cloud Storage wird die Trainingszeit durch die Verwendung von Managed Lustre deutlich verkürzt und die Reaktionsfähigkeit Ihrer Modelle während der Bereitstellung verbessert. Diese Verbesserungen machen sich besonders bei anspruchsvollen Arbeitslasten bemerkbar, die einen schnellen und konsistenten Zugriff auf freigegebene Daten erfordern.
  • Cloud Storage FUSE: Cloud Storage FUSE bietet dauerhaften und kostengünstigen Speicher für Ihre KI- und ML-Arbeitslasten. Cloud Storage dient als zentrales Repository für Ihre Rohdaten-Trainingsdatasets, Modell-Checkpoints und Modellsicherungen. Cloud Storage trägt dazu bei, die Datenbeständigkeit, langfristige Verfügbarkeit und Kosteneffizienz von Daten zu gewährleisten, die nicht aktiv für Berechnungen verwendet werden.

Trainingsbelastung

In der oben beschriebenen Architektur sind die folgenden Schritte im Datenfluss während des Modelltrainings erforderlich:

  1. Trainingsdaten in Cloud Storage hochladen: Sie laden Trainingsdaten in einen Cloud Storage-Bucket hoch, der als sicheres und skalierbares zentrales Repository und als Single Source of Truth dient.
  2. Daten in Managed Lustre kopieren: Das Trainingsdatencorpus wird durch Importieren von Daten in eine Managed Lustre-Instanz aus Cloud Storage übertragen. Durch die Übertragung der Trainingsdaten können Sie die leistungsstarken Dateisystemfunktionen von Managed Lustre nutzen, um die Datenlade- und ‑verarbeitungsgeschwindigkeiten während des Modelltrainings zu optimieren.
  3. Trainingsjobs in GKE ausführen: Der Modelltrainingsprozess wird auf GKE-Knoten ausgeführt. Wenn Sie Managed Lustre als Datenquelle verwenden, anstatt Daten direkt aus Cloud Storage zu laden, können die GKE-Knoten Trainingsdaten mit deutlich höherer Geschwindigkeit und geringerer Latenz abrufen und laden. Managed Lustre ermöglicht auch eine kürzere Zeit für den Beginn der Übertragung des ersten Bytes, gemessen als Zeit bis zum ersten Byte (TTFB). Mit Managed Lustre lassen sich die Datenladezeiten verkürzen und der gesamte Trainingsprozess beschleunigen, insbesondere bei großen Datasets mit kleinen Lesedateien und komplexen Modellen. Je nach den Anforderungen Ihrer Arbeitslast können Sie GPUs oder TPUs verwenden. Informationen zur Auswahl eines geeigneten Prozessortyps finden Sie weiter unten in diesem Dokument unter Beschleunigeroptionen.
  4. Trainingsprüfpunkte in Managed Lustre speichern: Während des Trainings werden Prüfpunkte basierend auf von Ihnen definierten Messwerten oder Intervallen in Managed Lustre gespeichert. Die Prüfpunkte erfassen den Zustand des Modells in regelmäßigen Abständen. Die Checkpoints können zur langfristigen Speicherung selektiv nach Cloud Storage exportiert werden.

Bereitstellungsarbeitslast

In der vorherigen Architektur sind die folgenden Schritte im Datenfluss während des Bereitstellens des Modells erforderlich:

  1. Modell für die Bereitstellung laden: Wenn Ihr Modell für die Bereitstellung bereit ist, laden Ihre GKE-Pods das trainierte Modell von Ihrer Managed Lustre-Instanz auf die Bereitstellungsknoten. Wenn die verwaltete Lustre-Instanz, die Sie während des Trainings verwendet haben, über genügend IOPS-Kapazität verfügt und sich in derselben Zone wie Ihre Beschleuniger befindet, können Sie dieselbe verwaltete Lustre-Instanz zum Bereitstellen Ihres Modells verwenden. Durch die Wiederverwendung der Managed Lustre-Instanz können Ressourcen effizient zwischen Training und Bereitstellung aufgeteilt werden. Verwenden Sie für eine optimale Leistung und Kompatibilität denselben GPU- oder TPU-Prozessortyp, den Sie für Ihre Serving-GKE-Knoten ausgewählt haben.
  2. Inferenzanfrage: Anwendungsnutzer senden Inferenzanfragen über die Bereitstellungsendpunkte. Diese Anfragen werden an den Cloud Load Balancing-Dienst weitergeleitet. Cloud Load Balancing verteilt die eingehenden Anfragen auf die Serving-Container im GKE-Cluster. Durch diese Verteilung wird sichergestellt, dass kein einzelner Container überlastet wird und Anfragen effizient verarbeitet werden.
  3. Inferenzanfragen verarbeiten: Wenn eine Inferenzanfrage eingeht, greifen die Rechenknoten auf das vorab geladene Modell zu, um die erforderlichen Berechnungen durchzuführen und eine Vorhersage zu generieren.
  4. Antwortübermittlung: Die Serving-Container senden die Antworten über Cloud Load Balancing zurück. Cloud Load Balancing leitet die Antworten zurück an die entsprechenden Anwendungsnutzer weiter. Damit wird der Zyklus der Inferenzanfrage abgeschlossen.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte verwendet:

  • Virtual Private Cloud (VPC): Ein virtuelles System, das globale, skalierbare Netzwerkfunktionen für Ihre Google Cloud Arbeitslasten bietet. VPC umfasst VPC-Netzwerk-Peering, Private Service Connect, Zugriff auf private Dienste und freigegebene VPC.
  • Cloud Load Balancing: Ein Portfolio von leistungsstarken, skalierbaren, globalen und regionalen Load-Balancern
  • Google Kubernetes Engine (GKE): Ein Kubernetes-Dienst, mit dem Sie Containeranwendungen in großem Maßstab mithilfe der Infrastruktur von Google bereitstellen und betreiben können.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Google Cloud Managed Lustre: Ein vollständig verwaltetes paralleles Dateisystem für KI, Hochleistungs-Computing (HPC) und datenintensive Anwendungen.

Anwendungsfälle

Managed Lustre eignet sich ideal für KI-Arbeitslasten, die Speicherkapazitäten im PiB-Bereich und Zugriff mit geringer Latenz (unter einer Millisekunde) mit hohem Durchsatz und hohen IOPS erfordern. In diesem Abschnitt finden Sie Beispiele für Anwendungsfälle, in denen Sie Managed Lustre verwenden können.

Textbasierte Verarbeitung und Textgenerierung

LLMs sind spezielle KI-Modelle, die speziell für das Verarbeiten und Verstehen von textbasierten Daten entwickelt wurden. LLMs werden mit riesigen Text-Datasets trainiert, wodurch sie eine Vielzahl von Aufgaben ausführen können, darunter maschinelle Übersetzung, Question Answering und Textzusammenfassung. Um ein effizientes Training und eine effiziente Batchverarbeitung zu ermöglichen, benötigt Ihr LLM Zugriff auf die Datasets mit niedriger Latenz. Managed Lustre eignet sich hervorragend für datenintensive Anwendungen, da es den hohen Durchsatz und die niedrige Latenz bietet, die sowohl für das Training als auch für die Inferenz erforderlich sind. Dies führt zu reaktionsschnelleren LLM-basierten Anwendungen.

Verarbeitung von Bildern oder Videos mit hoher Auflösung

Für herkömmliche KI- und ML-Anwendungen oder multimodale generative Modelle, die hochauflösende Bilder oder Videos verarbeiten, z. B. für die Analyse medizinischer Bilder oder für autonome Fahrsysteme, sind eine große Speicherkapazität und ein schneller Datenzugriff erforderlich. Managed Lustre bietet ein leistungsstarkes, nichtflüchtiges Dateisystem, das ein schnelles Laden von Daten ermöglicht, um die Anwendungsleistung zu steigern. Mit Managed Lustre können beispielsweise große Mengen an Patientendaten wie MRT- und CT-Scans gespeichert werden. Außerdem kann das schnelle Laden von Daten auf Compute-Knoten für das Modelltraining ermöglicht werden. Diese Funktion ermöglicht es KI- und ML-Modellen, die Daten schnell für Diagnose und Behandlung zu analysieren.

Designalternativen

In diesem Abschnitt werden alternative Designansätze vorgestellt, die Sie für Ihre KI- und ML-Anwendung in Google Cloudin Betracht ziehen können.

Alternative für die Computing-Infrastruktur

In der Referenzarchitektur in diesem Dokument wird GKE für die KI- und ML-Arbeitslasten verwendet. Je nach den Anforderungen Ihrer Arbeitslast können Sie alternativ Managed Lustre-Instanzen in Compute Engine mit Slurm bereitstellen. Wir empfehlen diesen Ansatz, wenn Sie proprietäres geistiges Eigentum (IP) im Bereich KI in eine skalierbare Umgebung einbinden müssen und Flexibilität und Kontrolle benötigen, um die Leistung für spezielle Arbeitslasten zu optimieren.

Mit Compute Engine haben Sie im Vergleich zu GKE eine detailliertere Kontrolle auf Betriebssystemebene. Wenn Sie Compute Engine verwenden, haben Sie folgende Möglichkeiten:

  • Sie können das Betriebssystem in ihren virtuellen Maschinen auswählen, konfigurieren und verwalten, um bestimmte Arbeitslastanforderungen zu erfüllen.
  • Passen Sie Ihre Infrastruktur genau an Ihre Anforderungen an, einschließlich der Auswahl bestimmter VM-Maschinentypen.
  • Verwenden Sie die beschleunigungsoptimierte Maschinenfamilie, um die Leistung Ihrer KI-Arbeitslasten zu verbessern.

Slurm ist ein hochkonfigurierbarer Open-Source-Workload- und Ressourcenmanager. Slurm bietet eine leistungsstarke Option zum Verwalten von KI-Arbeitslasten und ermöglicht es Ihnen, die Konfiguration und Verwaltung der Rechenressourcen zu steuern. Für diesen Ansatz sind Kenntnisse in der Slurm-Administration und der Linux-Systemverwaltung erforderlich. GKE bietet eine verwaltete Kubernetes-Umgebung, die die Clusterverwaltung automatisiert.

Informationen zum Bereitstellen von Slurm finden Sie unter HPC-Cluster mit Slurm bereitstellen. Sie können die Bereitstellung auch mit dem Cluster Toolkit und dem Starter-Blueprint für verwaltetes Lustre vornehmen.

Beschleunigeroptionen

Maschinenbeschleuniger sind spezielle Prozessoren, die die für KI- und ML-Arbeitslasten erforderlichen Berechnungen beschleunigen. Sie können entweder GPUs oder TPUs auswählen.

  • GPU-Beschleuniger bieten eine hervorragende Leistung für eine Vielzahl von Aufgaben, darunter Grafikrendering, Deep-Learning-Training und wissenschaftliches Rechnen. Google Cloud bietet eine breite Auswahl an GPUs für unterschiedliche Leistungs- und Preisanforderungen. Informationen zu GPU-Modellen und ‑Preisen finden Sie unter GPU-Preise.
  • TPUs sind speziell entwickelte KI-Beschleuniger, die für das Training und die Inferenz großer KI-Modelle optimiert sind. TPUs eignen sich ideal für eine Vielzahl von Anwendungsfällen, z. B. Chatbots, Codegenerierung, Generierung von Medieninhalten, synthetische Sprache, Vision-Dienste, Empfehlungssysteme und Personalisierungsmodelle. Weitere Informationen zu TPU-Modellen und ‑Preisen finden Sie unter TPU-Preise.

Speicheralternativen

Cloud Storage FUSE mit Anywhere Cache kann für Trainings-, Checkpointing- und Serving-Arbeitslasten verwendet werden. Cloud Storage FUSE mit Anywhere Cache ist die empfohlene Speicherlösung für die Bereitstellung und Inferenz, da sie im Vergleich zu Managed Lustre kostengünstiger ist und die multiregionale Inferenz erleichtert. Um die höchste Verfügbarkeit zu gewährleisten, verwenden Sie Cloud Storage FUSE mit Anywhere Cache und einem multiregionalen oder bi-regionalen Bucket. Mit dieser Konfiguration sind Ihre trainierten KI-Modelle in mehreren Regionen verfügbar. Im Vergleich zu verwalteten Lustre-Instanzen kann Cloud Storage FUSE jedoch einen geringeren Durchsatz pro VM haben. Weitere Informationen finden Sie unter KI- und ML-Arbeitslasten mit Cloud Storage FUSE optimieren.

Designaspekte

Wenn Sie eine Managed Lustre-Bereitstellung entwerfen möchten, die die Sicherheit, Zuverlässigkeit, Kosten, den Betrieb und die Leistung Ihrer KI- und ML-Arbeitslasten auf Google Cloudoptimiert, verwenden Sie die Richtlinien in den folgenden Abschnitten.

Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.

Sicherheit, Datenschutz und Compliance

In diesem Abschnitt werden Überlegungen für Ihre KI- und ML-Arbeitslasten inGoogle Cloud beschrieben, die Ihre Sicherheits-, Datenschutz- und Compliance-Anforderungen erfüllen.

SSH-Sicherheit

Mit Identity-Aware Proxy (IAP) können Sie den Zugriff auf Ihre Anwendungen, die in GKE ausgeführt werden, besser steuern. IAP wird in die GKE-Ingress-Ressource eingebunden und trägt dazu bei, dass nur authentifizierte Nutzer mit der richtigen IAM-Rolle (Identity and Access Management) auf die Anwendungen zugreifen können. Weitere Informationen finden Sie unter IAP für GKE aktivieren und Zugriffssteuerung mit IAM.

Datenverschlüsselung

Standardmäßig werden Ihre Daten in GKE, einschließlich der Daten, die in Ihrer Managed Lustre-Instanz gespeichert sind, bei Inaktivität und während der Übertragung mit Google-owned and Google-managed encryption keysverschlüsselt. Als zusätzliche Sicherheitsebene für vertrauliche Daten können Sie Daten auf Anwendungsebene mit einem Schlüssel verschlüsseln, den Sie mit Cloud Key Management Service (Cloud KMS) verwalten. Weitere Informationen finden Sie unter Secrets auf Anwendungsebene verschlüsseln.

Wenn Sie einen GKE Standard-Cluster verwenden, können Sie die folgenden zusätzlichen Funktionen zur Datenverschlüsselung nutzen:

Datenisolation

Um die Sicherheit zu erhöhen und den Datenschutz zu verbessern, sollten Sie Trainingsdaten in einer separaten verwalteten Lustre-Instanz speichern, die von den Checkpoints und trainierten Modellen getrennt ist. Die Verwendung separater Speicherinstanzen bietet Leistungsisolation, erhöht die Sicherheit durch die Isolation von Trainingsdaten und verbessert den Datenschutz. Mit Zugriffssteuerungslisten können Sie die Sicherheit innerhalb einer einzelnen Instanz verwalten. Die Verwendung separater Instanzen bietet jedoch eine robustere Sicherheitsgrenze.

Weitere Sicherheitsaspekte

Im Autopilot-Betriebsmodus konfiguriert GKE Ihren Cluster vor und verwaltet Knoten gemäß den Best Practices für die Sicherheit. So können Sie sich auf die arbeitslastspezifische Sicherheit konzentrieren. Weitere Informationen finden Sie unter Sicherheitsfunktionen von GKE Autopilot und Move-in ready Kubernetes security with GKE Autopilot.

Informationen zum Schutz der Privatsphäre Ihrer Daten finden Sie unter Schutz sensibler Daten – Übersicht und Speicher und Datenbanken auf sensible Daten prüfen. Google Cloud

Sicherheitsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Sicherheit.

Zuverlässigkeit

In diesem Abschnitt werden Designfaktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre regionale Bereitstellung in Google Cloudberücksichtigen sollten.

Robustheit bei Infrastrukturausfällen

Im Betriebsmodus „Autopilot“, der in dieser Architektur verwendet wird, bietet GKE die folgenden integrierten Zuverlässigkeitsfunktionen:

  • Ihre Arbeitslast verwendet einen regionalen GKE-Cluster. Die Steuerungsebene und die Worker-Knoten werden auf drei verschiedene Zonen innerhalb einer Region verteilt. Ihre Arbeitslasten sind gegen Zonenausfälle resistent. Regionale GKE-Cluster haben eine höhere Service Level Agreement (SLA) als zonale Cluster.
  • Sie müssen keine Knoten erstellen oder Knotenpools verwalten. GKE erstellt die Knotenpools automatisch und skaliert sie automatisch entsprechend den Anforderungen Ihrer Arbeitslasten.

Um die Verfügbarkeit Ihrer Anwendung zu erhöhen, können Sie sie aus mehreren Zonen bereitstellen, indem Sie in jeder Zone eine verwaltete Lustre-Instanz bereitstellen.

Planung der Clusterkapazität

Damit genügend GPU-Kapazität verfügbar ist, wenn sie für das Autoscaling des GKE-Cluster erforderlich ist, können Sie Reservierungen erstellen und verwenden. Eine Reservierung bietet zugesicherte Kapazität in einer bestimmten Zone für eine bestimmte Ressource. Eine Reservierung kann für ein Projekt spezifisch sein oder für mehrere Projekte freigegeben sein. Für reservierte Ressourcen fallen auch dann Gebühren an, wenn die Ressourcen nicht bereitgestellt oder verwendet werden. Weitere Informationen finden Sie unter Reservierte zonale Ressourcen nutzen.

Datenhaltbarkeit

Wenn Sie Arbeitslasten in GKE sichern und wiederherstellen möchten, aktivieren Sie Backup for GKE in jedem Cluster. Sicherung für GKE ist nützlich für die Notfallwiederherstellung, CI/CD-Pipelines, das Klonen von Arbeitslasten und Upgradeszenarien.

Sie können bestimmte oder alle Arbeitslasten auswählen, die Sie sichern und wiederherstellen möchten. Sie können auch Arbeitslasten aus einem Cluster sichern und in einem anderen Cluster wiederherstellen. Um die Ausfallzeiten von Arbeitslasten zu reduzieren, können Sie Ihre Sicherungen so planen, dass sie automatisch ausgeführt werden. Damit können Sie Ihre Arbeitslasten im Falle eines Vorfalls schnell wiederherstellen.

Weitere Überlegungen zur Zuverlässigkeit

Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.

Kostenoptimierung

Dieser Abschnitt enthält Anleitungen zum Optimieren der Kosten für die Einrichtung und den Betrieb Ihres KI- und ML-Workflows in Google Cloud.

Leistungsstufen für Managed Lustre

Wenn Sie eine Managed Lustre-Instanz erstellen, müssen Sie eine Leistungsstufe auswählen. Wählen Sie eine geeignete Stufe basierend auf den Leistungs- und Kostenanforderungen Ihrer Arbeitslast aus.

Modell für die Knotenbereitstellung

Im Autopilot-Modus optimiert GKE die Effizienz der Infrastruktur Ihres Clusters basierend auf den Anforderungen der Arbeitslast. Um die Kosten zu kontrollieren, müssen Sie die Ressourcennutzung nicht ständig überwachen oder die Kapazität verwalten.

Wenn Sie die CPU-, Arbeitsspeicher- und sitzungsspezifische Speichernutzung Ihres Autopilot-Clusters vorhersagen können, können Sie Rabatte für zugesicherte Nutzung erhalten. Um die Kosten für die Ausführung Ihrer Anwendung zu senken, können Sie Spot-VMs für Ihre GKE-Knoten verwenden. Spot-VMs sind günstiger als Standard-VMs, aber ihre Verfügbarkeit ist nicht garantiert.

Ressourcenverwaltung

Um Kosten und Leistung durch effizientes Management zu optimieren, verwenden Sie Dynamic Workload Scheduler. Dynamic Workload Scheduler ist ein Ressourcenverwaltungs- und Jobplaner, mit dem Sie den Zugriff auf KI-Beschleuniger (GPUs und TPUs) verbessern können. Der Dynamic Workload Scheduler plant alle Ihre Beschleuniger gleichzeitig und kann außerhalb der Spitzenzeiten mit definierter Beschleunigerkapazitätsverwaltung ausgeführt werden. Durch die strategische Planung von Jobs trägt Dynamic Workload Scheduler dazu bei, die Nutzung von Beschleunigern zu maximieren, die Leerlaufzeit zu verkürzen und Ihre Cloud-Ausgaben zu optimieren.

Ressourcennutzung

Um die Ressourcennutzung zu maximieren, verwenden Sie eine verwaltete Lustre-Instanz für Training und Bereitstellung. Durch die Konsolidierung von Trainings- und Bereitstellungs-Workloads auf einer einzigen verwalteten Lustre-Instanz werden die Kosten minimiert, da redundante Infrastruktur entfällt und die Ressourcenverwaltung vereinfacht wird. Wenn beide Arbeitslasten jedoch einen hohen Durchsatz erfordern, kann es zu Ressourcenkonflikten kommen. Wenn nach dem Training noch IOPS verfügbar sind, kann die Verwendung derselben Instanz das Laden des Modells für die Bereitstellung beschleunigen. Mit Cloud Monitoring können Sie prüfen, ob Sie genügend Ressourcen für Ihren Durchsatzbedarf zuweisen.

Um die Speicherkosten zu minimieren, exportieren Sie Ihre Daten aus Ihrer Managed Lustre-Instanz nach dem Training und der Erstellung von Checkpoints in eine kostengünstigere Cloud Storage-Klasse. Wenn Sie Ihre Daten in Cloud Storage exportieren, können Sie Managed Lustre-Instanzen nach Bedarf für Ihre Arbeitslast löschen und neu erstellen.

Um die Kosten für Ihren Cloud Storage-Bucket zu senken, aktivieren Sie die Verwaltung des Objektlebenszyklus oder Autoclass. Mit der Verwaltung des Objektlebenszyklus werden ältere oder weniger genutzte Daten automatisch in kostengünstigere Speicherklassen verschoben oder gelöscht, je nach den von Ihnen festgelegten Regeln. Mit Autoclass werden Daten basierend auf Ihren Zugriffsmustern zwischen Speicherklassen verschoben. Mit der Verwaltung des Objektlebenszyklus oder Autoclass können Sie die kostengünstigste Speicherklasse für Ihre Datennutzung auswählen, da Sie so Ausgaben minimieren und unerwartete Gebühren für den Abruf vermeiden.

Weitere Kostengesichtspunkte

Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung. Informationen zur Kostenoptimierung in GKE finden Sie unter Best Practices zum Ausführen kostenoptimierter Kubernetes-Anwendungen in GKE.

Operative Exzellenz

Dieser Abschnitt enthält eine Anleitung zum Entwerfen einer Infrastruktur für Ihren KI- und ML-Workflow, die Sie effizient betreiben können.

Modellverwaltung

Mit Vertex AI Model Registry können Sie Modellartefakte wie Binärdateien und Metadaten verfolgen und verwalten. Damit lassen sich Modellversionen nahtlos speichern, organisieren und bereitstellen.

Um die Zuverlässigkeit von Modellen zu optimieren, implementieren Sie Vertex AI Model Monitoring, um Datendrift zu erkennen, die Leistung zu verfolgen und Anomalien in der Produktion zu identifizieren.

GKE-Cluster-Autoscaling

Mit Autopilot-Clustern müssen Sie keine Knotenpools bereitstellen oder verwalten. Knotenpools werden automatisch über die automatische Knotenbereitstellung bereitgestellt und automatisch skaliert, um die Anforderungen Ihrer Arbeitslasten zu erfüllen.

Bei GKE-Standardclustern passt der Cluster-Autoscaler die Anzahl der Knoten in einem Knotenpool automatisch an die Anforderungen der Arbeitslast an. Um das Autoscaling-Verhalten des Cluster Autoscaler zu steuern, können Sie eine Mindest- und eine maximale Größe für den Knotenpool angeben.

Wenn Sie den GKE-Cluster-Autoscaler verwenden, aktivieren Sie das Compute Engine-Autoscaling für verwaltete Instanzgruppen (MIGs) nicht für Ihre Clusterknoten. Der GKE-Cluster Autoscaler ist vom Compute Engine Autoscaler getrennt. Der GKE-Cluster-Autoscaler ist so konzipiert, dass er Ihre Arbeitslast skaliert, indem er die Ressourcennutzung in Ihrem GKE-Cluster analysiert, einschließlich der zugrunde liegenden MIGs. Wenn Sie beide Autoscaler verwenden, kann es zu widersprüchlichen Skalierungsentscheidungen kommen. Weitere Informationen finden Sie unter GKE-Cluster-Autoscaling.

Messwerte überwachen

Verwenden Sie Cloud Monitoring, um Engpässe zu identifizieren. Dazu müssen Sie wichtige Messwerte wie Latenz, Fehlerrate und Ressourcennutzung im Blick behalten. Cloud Monitoring bietet Echtzeitsichtbarkeit, um Muster bei der Ressourcennutzung zu verfolgen und potenzielle Ineffizienzen zu erkennen.

Speicherverwaltung

Wenn Sie die Datenverwaltung in Ihrem Cloud Storage-Bucket basierend auf der Nutzung automatisieren möchten, aktivieren Sie die Verwaltung des Objektlebenszyklus oder Autoclass. Bei der Verwaltung des Objektlebenszyklus werden ältere oder weniger häufig verwendete Daten automatisch in kostengünstigere Speicherklassen verschoben oder gelöscht, je nach den von Ihnen festgelegten Regeln. Mit Autoclass werden Daten basierend auf Ihren Zugriffsmustern zwischen Speicherklassen verschoben. Durch die Verwendung der Verwaltung des Objektlebenszyklus oder von Autoclass wird eine konsistente Richtlinienanwendung in Ihrer Speicherinfrastruktur gewährleistet und das Risiko menschlicher Fehler verringert. Dies führt ohne manuellen Eingriff sowohl zu einer besseren Leistung als auch zu Kosteneinsparungen.

Weitere operative Aspekte

Prinzipien und Empfehlungen für operative Exzellenz, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Operative Exzellenz.

Leistungsoptimierung

Dieser Abschnitt enthält Anleitungen zur Optimierung der Leistung Ihres KI- und ML-Workflows in Google Cloud. Die Anleitung in diesem Abschnitt ist nicht vollständig. Weitere Informationen zum Optimieren der Leistung für Ihre Google Cloud Managed Lustre-Umgebung finden Sie unter Überlegungen zur Leistung.

Überlegungen zum Training

Jede A3- oder A4-VM kann 20 GB/s, also etwa 2,5 GB/s pro GPU, von einer verwalteten Lustre-Instanz liefern. Bevor das Training beginnt, müssen die Trainingsdaten aus Cloud Storage vorab abgerufen und in Managed Lustre importiert werden, um die Latenz während des Trainings zu minimieren. Um den Durchsatz für Ihre Trainingsarbeitslast zu maximieren, stellen Sie Ihre Managed Lustre-Instanz entsprechend Ihren Anforderungen an Durchsatz und Speicherkapazität bereit. Eine Managed Lustre-Instanz mit 20 TiB bietet beispielsweise einen aggregierten Durchsatz zwischen 2, 5 GB/s und 20 GB/s für alle Clients, abhängig von der ausgewählten Leistungsstufe. Wenn für Ihr Training ein höherer Durchsatz erforderlich ist, müssen Sie die Größe Ihrer Managed Lustre-Instanz entsprechend erhöhen.

Überlegungen zur Prüfpunktausführung

Um den hohen Schreibdurchsatz von Managed Lustre zu nutzen und die Trainingszeit zu minimieren, sollten Sie Managed Lustre sowohl für das Training als auch für das Erstellen von Checkpoints verwenden. Dieser Ansatz trägt zu einer effizienten Ressourcennutzung bei und senkt die Gesamtbetriebskosten für Ihre GPU-Ressourcen, da sowohl das Training als auch das Erstellen von Checkpoints so schnell wie möglich erfolgen. Um schnelles Checkpointing zu erreichen, können Sie verteiltes, asynchrones Checkpointing ausführen. Da Managed Lustre persistent ist, können Sie Ihre Prüfpunkte in derselben Instanz speichern. Wenn Sie die Kosten weiter optimieren und die Daten langfristig speichern möchten, können Sie Prüfpunkte in einen Cloud Storage-Bucket exportieren.

Überlegungen zur Bereitstellung

Um eine optimale Leistung bei der Bereitstellung zu erzielen, müssen Sie die Zeit minimieren, die zum Laden von Modellen in den Arbeitsspeicher benötigt wird. Managed Lustre bietet einen hohen Durchsatz pro VM von mehr als 20 GB/s, was einen hohen aggregierten Clusterdurchsatz ermöglicht. Mit dieser Funktion können Sie die Ladezeiten von Modellen auf Tausenden von VMs minimieren. Verwenden Sie Cloud Monitoring, um wichtige Messwerte zu erfassen, mit denen Sie Engpässe identifizieren können. Achten Sie darauf, dass Sie ausreichend Kapazität bereitstellen, da die Leistung mit der Speicherkapazität steigt.

Ressourcenplatzierung

Um die Latenz zu minimieren und die Leistung zu maximieren, sollten Sie Ihre verwaltete Lustre-Instanz in einer Region erstellen, die sich geografisch in der Nähe Ihrer GPU- oder TPU-Compute-Clients befindet. In der Referenzarchitektur, die in diesem Dokument beschrieben wird, befinden sich die GKE-Container und das Dateisystem in derselben Zone.

  • Für Training und Checkpointing: Um optimale Ergebnisse zu erzielen, sollten Sie die Clients und die verwalteten Lustre-Instanzen in derselben Zone bereitstellen. Durch diese Colocation werden die Datenübertragungszeiten minimiert und die Nutzung des Managed Lustre-Schreibdurchsatzes maximiert.
  • Für die Bereitstellung:Obwohl die gemeinsame Platzierung mit Compute-Clients in derselben Zone ideal ist, kann eine verwaltete Lustre-Instanz pro Region ausreichen. So werden zusätzliche Kosten vermieden, die mit der Bereitstellung mehrerer Instanzen verbunden sind, und die Rechenleistung wird maximiert. Wenn Sie jedoch zusätzliche Kapazität oder einen höheren Durchsatz benötigen, sollten Sie möglicherweise mehr als eine Instanz pro Region bereitstellen.

Informationen zu den unterstützten Regionen und Zonen für Managed Lustre-Instanzen finden Sie unter Unterstützte Standorte.

Weitere Hinweise zur Leistung

Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell auf KI- und ML-Arbeitslasten zugeschnitten sind, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.

Bereitstellung

Wenn Sie eine verwaltete Lustre-Instanz erstellen und einbinden möchten, empfehlen wir die Verwendung des Managed Lustre-Moduls, das im Cluster Toolkit verfügbar ist. Das Cluster Toolkit ist ein modulares, auf Terraform basierendes Toolkit, das für die Bereitstellung wiederholbarer KI- und ML-Umgebungen inGoogle Cloudentwickelt wurde.

Informationen zum manuellen Bereitstellen von Managed Lustre in GKE finden Sie unter Managed Lustre-Instanz erstellen und Von Google Kubernetes Engine aus eine Verbindung zu einer vorhandenen Managed Lustre-Instanz herstellen.

Informationen zum Konfigurieren eines VPC-Netzwerks für Managed Lustre finden Sie unter VPC-Netzwerk konfigurieren.

Nächste Schritte

Beitragende

Autorin: Samantha He | Technische Autorin

Weitere Beitragende: