Speicheroptionen für Cloud TPU-Daten

In diesem Dokument werden Datenspeicheroptionen beschrieben, die beim Trainieren von Modellen in Cloud TPU verwendet werden können.

Einführung

Cloud TPU erfordert Datenspeicherung für Folgendes:

  • Dataset herunterladen und vorverarbeiten
  • Hosteingabe-Pipeline verarbeiten
  • Modelltrainingseingabe
  • Modelltrainingsausgabe

Die Speicheroptionen für die Cloud TPU-Anwendungsdaten und -Trainings-Datasets sind:

Weitere Informationen zum Verwalten von Speicher finden Sie auf den folgenden Seiten:

Langlebiger Blockspeicher

Langlebiger Blockspeicher, auch als Laufwerke oder Volumes bezeichnet, ist für Daten gedacht, die Sie beibehalten möchten, nachdem Sie Ihre TPU-VM angehalten, angehalten oder gelöscht haben. Der dauerhafte Blockspeicher ist auch dann verfügbar, wenn die TPU-VM abstürzt oder ausfällt. Sie können das Bootlaufwerk der TPU-VM verwenden oder Ihrer TPU zusätzlichen Blockspeicher anhängen.

In den folgenden Fällen kann es sinnvoll sein, ein zusätzliches Laufwerk anzuschließen:

  • Die Größe Ihres Trainingsdatensatzes überschreitet die Größe des TPU-Bootlaufwerks.
  • Sie haben nur-Lesedaten und möchten mit einem Hyperdisk ML-Volume einen schnelleren Lesezugriff erhalten.

Sie können zwei Arten von langlebigem Blockspeicher an eine Cloud TPU anhängen: Google Cloud Hyperdisk und Persistent Disk. Nichtflüchtige Laufwerke werden für die neuesten Maschinenserien nicht unterstützt, einschließlich Cloud TPU v6e. Google empfiehlt die Verwendung von Google Cloud Hyperdisk für die höchste Leistung und erweiterte Funktionen.

TPU-VM-Bootlaufwerk

Standardmäßig hat jede Cloud TPU-VM ein einzelnes Bootlaufwerk mit 100 GiB, auf dem sich das Betriebssystem befindet. Das Bootlaufwerk kann auch zum temporären Speichern heruntergeladener Datasets für die Vorverarbeitung sowie von Modelleingabe- und Modellausgabedaten verwendet werden, sofern die Gesamtmenge nicht den verfügbaren Speicherplatz auf dem Bootlaufwerk überschreitet.

Sie können die Größe des Bootlaufwerks auf einer Cloud TPU nicht ändern. Wenn Ihre Anwendung zusätzlichen Speicherplatz erfordert, der über die Standardmenge für das Bootlaufwerk hinausgeht, können Sie Ihrer TPU-VM-Instanz ein oder mehrere langlebige Laufwerke hinzufügen. Weitere Informationen finden Sie unter Dauerhaften Blockspeicher an eine TPU-VM anhängen.

Angehängter Speicher

Sowohl Hyperdisk als auch Persistent Disk sind langlebige Netzwerkspeichergeräte, auf die Ihre VM-Instanzen wie auf physische Laufwerke auf einem Computer oder Server zugreifen können. Beide Arten von Laufwerken werden unabhängig von Ihren VM-Instanzen erstellt, sodass Sie Ihre Daten auch nach dem Löschen der VM-Instanzen beibehalten können.

Vorteile der Verwendung von Hyperdisk gegenüber Persistent Disk sind die anpassbare Leistung sowie höhere IOPS- und Durchsatzlimits. Weitere Informationen zu Hyperdisk und nichtflüchtigem Speicher finden Sie unter Laufwerkstyp auswählen.

Weitere Informationen zur Verwendung von dauerbeständigem Blockspeicher mit TPU-VMs finden Sie unter Dauerbeständigen Blockspeicher an eine TPU-VM anhängen.

Laufwerksicherungen

Es kann schwierig sein, die Daten vom Bootlaufwerk abzurufen, wenn die TPU-VM im Status „unbekannt“ hängen bleibt, oder gelöschte Daten wiederherzustellen. Sichern Sie Ihre Daten mit einer anderen Speicheroption, z. B. mit Cloud Storage-Buckets.

Wenn Sie Daten auf einem angeschlossenen Laufwerk speichern, können Sie Laufwerk-Snapshots verwenden, mit denen Daten auf einem Laufwerk inkrementell gesichert werden. Laufwerk-Snapshots werden für das TPU-Bootlaufwerk nicht unterstützt. Weitere Informationen finden Sie unter Laufwerk-Snapshots.

Cloud Storage-Buckets

Cloud Storage-Buckets sind die flexibelste, skalierbarste und robusteste Speicheroption für VM-Instanzen. Wenn der Trainingsjob die geringere Latenz für dauerhaften Blockspeicher nicht benötigt, können Sie Ihr Dataset in einem Cloud Storage-Bucket speichern.

Die Leistung der Cloud Storage-Buckets hängt von der gewählten Speicherklasse und der Zone des Buckets im Verhältnis zur Instanz ab.

Wenn Sie den Cloud Storage-Bucket in derselben Zone wie Ihre TPU-VM erstellen, ist die Leistung mit dauerhaftem Blockspeicher vergleichbar, aber mit einer höheren Latenz und weniger konsistenten Durchsatzmerkmalen.

Alle Cloud Storage-Buckets haben eine integrierte Redundanz, um Ihre Daten vor Geräteausfällen zu schützen und die Verfügbarkeit der Daten während Wartungsarbeiten im Rechenzentrum aufrechtzuerhalten. Für alle Cloud Storage-Vorgänge werden Prüfsummen berechnet, um dafür zu sorgen, dass die gelesenen Daten mit den geschriebenen Daten übereinstimmen.

Im Gegensatz zu einem zuverlässigen Blockspeicher sind Cloud Storage-Buckets nicht auf die Zone beschränkt, in der sich Ihre Instanz befindet. Außerdem können Daten von mehreren Instanzen gleichzeitig auf einem Bucket gelesen und geschrieben werden. Konfigurieren Sie zum Beispiel Instanzen in mehreren Zonen so, dass sie Daten im selben Bucket lesen und schreiben, anstatt diese auf dauerhaften Blockspeicher in mehreren Zonen zu replizieren.

Weitere Informationen zum Verbinden Ihrer TPU-VM mit einem Cloud Storage-Bucket finden Sie unter Verbindung mit Cloud Storage-Buckets herstellen.

Cloud Storage FUSE

Mit Cloud Storage FUSE können Sie Cloud Storage-Buckets als lokale Dateisysteme bereitstellen und darauf zugreifen. So können Anwendungen Objekte in Ihrem Bucket mit der Standardsemantik des Dateisystems lesen und schreiben.

In der Dokumentation zu Cloud Storage FUSE finden Sie weitere Informationen zur Funktionsweise von Cloud Storage FUSE und eine Beschreibung der Zuordnung von Cloud Storage FUSE-Vorgängen zu Cloud Storage-Vorgängen. Weitere Informationen zur Verwendung von Cloud Storage FUSE, z. B. zur Installation der Cloud Storage FUSE-Befehlszeile und zum Bereitstellen von Buckets, finden Sie auf GitHub.

Filestore-Dateifreigabe

Die Filestore-Dateifreigabe ist ein vollständig verwalteter NAS-Speicher (Network Attached Storage) für Compute Engine. Filestore bietet Kompatibilität mit vorhandenen Unternehmensanwendungen und unterstützt beliebige NFSv3-kompatible Clients.

Filestore bietet eine niedrige Latenz bei Dateivorgängen. Für latenzempfindliche Arbeitslasten unterstützt Filestore Kapazitäten bis zu 100 TiB, einen Durchsatz von 25 GiB pro Sekunde sowie 720.000 IOPS bei minimalen Leistungsschwankungen.

Mit Filestore können Sie Dateifreigaben auf TPU-VMs bereitstellen.

Nächste Schritte