Diese Seite wurde von der Cloud Translation API übersetzt.

GPUs

Um bestimmte Arbeitslasten in Compute Engine zu beschleunigen, können Sie entweder eine beschleunigungsoptimierte VM mit angehängten GPUs bereitstellen oder GPUs an eine N1-VM für allgemeine Zwecke anhängen.

In diesem Dokument werden die Features und Einschränkungen von GPUs beschrieben, die in Compute Engine ausgeführt werden.

Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das für die Unterstützung Ihrer Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) optimiert ist. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine (GKE) und Slurm-Scheduler zu erstellen.

GPUs und Maschinenserien

GPUs werden für die beschleunigungsoptimierten Maschinenserien (A4X, A4, A3, A2 und G2) und die N1-Maschinenserie für allgemeine Zwecke unterstützt. Bei VMs, die beschleunigungsoptimierte Maschinentypen verwenden, werden die GPUs beim Erstellen der VM automatisch angehängt. Bei VMs, die N1-Maschinentypen verwenden, hängen Sie die GPU während oder nach der VM-Erstellung an die VM an. GPUs können nicht mit anderen Maschinenserien verwendet werden.

Beschleunigungsoptimierte Maschinenserie

Jedem beschleunigungsoptimierten Maschinentyp ist ein bestimmtes NVIDIA-GPU-Modell angehängt.

An A4X-Maschinentypen sind NVIDIA GB200-Superchips angehängt.
Bei A4-Maschinentypen sind NVIDIA B200-GPUs angehängt.
An A3-Maschinentypen sind NVIDIA H100-GPUs mit 80 GB oder NVIDIA H200-GPUs mit 141 GB angehängt. Diese sind in den folgenden Varianten verfügbar:
- A3 Ultra: An diese Maschinentypen sind H200-GPUs mit 141 GB angehängt.
- A3 Mega: An diese Maschinentypen sind H100-GPUs mit 80 GB angehängt.
- A3 High: An diese Maschinentypen sind H100-GPUs mit 80 GB angehängt.
- A3 Edge: An diese Maschinentypen sind H100-GPUs mit 80 GB angehängt.
An A2-Maschinentypen sind NVIDIA A100-GPUs angehängt. Diese sind in den folgenden Varianten verfügbar:
- A2 Ultra: An diese Maschinentypen sind A100-GPUs mit 80 GB angehängt.
- A2 Standard: An diese Maschinentypen sind A100-GPUs mit 40 GB angehängt.
An G2-Maschinentypen sind NVIDIA L4-GPUs angehängt.

Weitere Informationen finden Sie unter Beschleunigungsoptimierte Maschinenserie.

N1-Maschinenserie für allgemeine Zwecke

Für alle anderen GPU-Typen können die meisten N1-Maschinentypen, mit Ausnahme des gemeinsam genutzten N1-Kerns (f1-micro und g1-small), verwendet werden.

Für diese Maschinenserie können Sie entweder vordefinierte oder benutzerdefinierte Maschinentypen verwenden.

GPUs auf Spot-VMs

Sie können Ihren Spot-VMs GPUs zu niedrigeren Spot-Preisen für die GPUs hinzufügen. An Spot-VMs angehängte GPUs funktionieren wie normale GPUs, bleiben jedoch nur für die Lebensdauer der VM bestehen. Für Spot-VMs mit GPUs gilt derselbe Prozess für vorzeitiges Beenden wie für alle Spot-VMs.

Fordern Sie ein dediziertes Preemptible GPU-Kontingent für GPUs auf Spot-VMs an. Weitere Informationen finden Sie unter Kontingente für Spot-VMs.

Bei Wartungsereignissen werden Spot-VMs mit GPUs standardmäßig vorzeitig beendet und können nicht automatisch neu gestartet werden. Wenn Sie die Instanzen neu erstellen möchten, nachdem sie beendet wurden, verwenden Sie eine verwaltete Instanzgruppe. Verwaltete Instanzgruppen erstellen Ihre VM-Instanzen neu, sofern die vCPU-, Speicher- und GPU-Ressourcen verfügbar sind.

Wenn Sie eine Warnung erhalten möchten, dass die VMs vorzeitig beendet werden, oder wenn Sie die VMs so konfigurieren möchten, dass sie nach einer Wartung automatisch neu gestartet werden, verwenden Sie Standard-VMs mit einer GPU. Für Standard-VMs mit GPUs bietet Compute Engine vor dem vorzeitigen Beenden eine Stunde im Voraus eine Warnung.

Compute Engine berechnet Ihnen keine GPUs, wenn ihre Instanzen in der ersten Minute nach dem Start der Ausführung wieder beendet werden.

Informationen zum Erstellen von Spot-VMs mit angehängten GPUs finden Sie unter VM mit angehängten GPUs erstellen und Spot-VMs erstellen. Ein Beispiel finden Sie unter A3-Ultra- oder A4-Instanz mit Spot-VMs erstellen.

GPUs auf VMs mit vordefinierten Laufzeiten

Für VMs, die das Standardbereitstellungsmodell verwenden, können in der Regel keine Kontingente für die Zuweisung auf Abruf verwendet werden. Kontingente auf Abruf sind für temporäre Arbeitslasten vorgesehen und in der Regel verfügbarer. Wenn Ihr Projekt kein Kontingent auf Abruf hat und Sie es noch nie angefordert haben, werden alle VMs in Ihrem Projekt auf das Standardkontingent angerechnet.

Wenn Sie ein Kontingent für die Zuweisung auf Abruf anfordern, müssen VMs, die das Standardbereitstellungsmodell verwenden, alle folgenden Kriterien erfüllen, um das Kontingent für die Zuweisung auf Abruf zu nutzen:

An die VMs sind GPUs angehängt.
Die VMs sind so konfiguriert, dass sie nach einer vordefinierten Laufzeit über das Feld maxRunDuration oder terminationTime automatisch gelöscht werden. Weitere Informationen finden Sie hier:
- Laufzeit einer VM beschränken
- Laufzeit von VMs in einer verwalteten Instanzgruppe begrenzen
Die VM darf keine Reservierungen nutzen. Weitere Informationen finden Sie unter Verhindern, dass Compute-Instanzen Reservierungen nutzen.

Wenn Sie ein Zuteilungskontingent auf Abruf für zeitgebundene GPU-Arbeitslasten verwenden, profitieren Sie sowohl von der unterbrechungsfreien Laufzeit als auch von der hohen Verfügbarkeit des Zuteilungskontingents auf Abruf. Weitere Informationen finden Sie unter Kontingente auf Abruf.

GPUs und Confidential VMs

Sie können eine GPU mit einer Confidential VM-Instanz mit Intel TDX auf der A3-Maschinenserie verwenden. Weitere Informationen finden Sie unter Unterstützte Konfigurationen für Confidential VMs. Informationen zum Erstellen einer Confidential VM-Instanz mit GPUs finden Sie unter Confidential VM-Instanz mit GPU erstellen.

GPUs und Blockspeicher

Wenn Sie eine VM auf einer GPU-Plattform erstellen, können Sie der VM nichtflüchtigen oder temporären Blockspeicher hinzufügen. Verwenden Sie zum Speichern nicht temporärer Daten persistenten Blockspeicher wie Hyperdisk oder Persistent Disk, da die Laufwerke unabhängig vom Lebenszyklus der VM sind. Daten auf nichtflüchtigem Speicher können auch nach dem Löschen der VM beibehalten werden.

Für temporären Scratch-Speicher oder Caches können Sie temporären Blockspeicher verwenden, indem Sie beim Erstellen der VM lokale SSD-Laufwerke hinzufügen.

Nichtflüchtiger Blockspeicher mit Persistent Disk- und Hyperdisk-Volumes

Sie können Persistent Disk-Volumes anhängen und Hyperdisk-Volumes mit GPU-fähigen VMs auswählen.

Für das ML-Training und Bereitstellen von Arbeitslasten empfiehlt Google die Verwendung von Hyperdisk ML-Volumes, die einen hohen Durchsatz und kürzere Datenladezeiten bieten. Dies macht Hyperdisk ML zu einer kostengünstigeren Option für ML-Arbeitslasten, da die GPU-Inaktivitätszeiten kürzer sind.

Hyperdisk-ML-Volumes unterstützen das Anhängen an mehrere VMs im Lesemodus. Sie können also dasselbe Laufwerk an mehrere VMs anhängen und jeder VM Zugriff auf dieselben Daten gewähren.

Weitere Informationen zu den unterstützten Laufwerkstypen für Maschinenserien, die GPUs unterstützen, finden Sie auf den Seiten für die Maschinenserien N1 und beschleunigungsoptimiert.

Lokale SSDs

Lokale SSD-Laufwerke bieten schnellen, temporären Speicher für das Caching, die Datenverarbeitung oder andere temporäre Daten. Lokale SSDs sind schnelle Speicher, da sie physisch mit dem Server verbunden sind, auf dem Ihre VM gehostet wird. Sie sind temporär, da die Daten verloren gehen, wenn die VM neu gestartet wird.

Daten mit hohen Anforderungen an die Persistenz sollten nicht auf lokalen SSDs gespeichert werden. Verwenden Sie stattdessen persistenten Speicher, um nicht vorübergehende Daten zu speichern.

Wenn Sie eine VM mit einer GPU manuell beenden, können Sie die Daten auf der lokalen SSD unter bestimmten Einschränkungen beibehalten. Weitere Informationen finden Sie in der Dokumentation zu lokalen SSDs.

Informationen zur regionalen Unterstützung lokaler SSDs mit GPU-Typen finden Sie unter Lokale SSD-Verfügbarkeit nach GPU-Regionen und -Zonen.

GPUs und Hostwartung

VMs mit angehängten GPUs werden immer beendet, wenn Compute Engine Wartungsereignisse für die VMs ausführt. Wenn an die VM lokale SSD-Laufwerke angehängt sind, gehen die lokalen SSD-Daten nach dem Beenden der VM verloren.

Weitere Informationen zum Umgang mit Wartungsereignissen finden Sie unter GPU-Hostwartungen

GPU-Preise

Für VMs mit angehängten GPUs fallen Kosten wie folgt an:

Wenn Sie Compute Engine anfordern, GPUs mit dem Bereitstellungsmodell für Spot-, Flex-Start- oder reservierungsgebundene Instanzen bereitzustellen, erhalten Sie je nach GPU-Typ einen Rabatt.
Für die meisten VMs, an die GPUs angehängt sind, gelten ebenso wie für vCPUs Rabatte für kontinuierliche Nutzung. Wenn Sie eine GPU für eine virtuelle Workstation auswählen, fügt Compute Engine Ihrer VM automatisch eine NVIDIA RTX-Lizenz für die virtuelle Workstation hinzu.

Informationen zu stündlichen und monatlichen Preisen für GPUs finden Sie auf der Seite „GPU-Preise”.

GPUs mit Rabatten für zugesicherte Nutzung reservieren

Informationen zum Reservieren von GPU-Ressourcen in einer bestimmten Zone finden Sie unter Reservierungstyp auswählen.

Wenn Sie Rabatte für zugesicherte Nutzung für GPUs in einer bestimmten Zone erhalten möchten, müssen Sie ressourcenbasierte Zusicherungen für die GPUs erwerben und auch Reservierungen an Ihre Zusicherungen anhängen, die übereinstimmende GPUs angeben. Weitere Informationen finden Sie unter Reservierungen an ressourcenbasierte Zusicherungen anhängen.

GPU-Einschränkungen und Beschränkungen

Für VMs mit angehängten GPUs gelten die folgenden Beschränkungen und Einschränkungen:

GPUs werden nur mit beschleunigungsoptimierten (A4X, A4, A3, A2 und G2) oder N1-Maschinentypen für allgemeine Zwecke unterstützt.
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Modelle, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Für VMs mit einer oder mehreren GPUs gilt eine maximale Anzahl an vCPUs für jede einzelne GPU, die Sie der VM hinzufügen. Die verfügbaren vCPU- und Speicherbereiche für verschiedene GPU-Konfigurationen können Sie der GPU-Liste entnehmen.
GPUs benötigen Gerätetreiber, um ordnungsgemäß zu funktionieren. NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen eine Mindesttreiberversion verwenden. Weitere Informationen zu Treiberversionen finden Sie unter Erforderliche NVIDIA-Treiberversionen.
VMs mit angehängtem GPU-Modell unterliegen nur dann dem Compute Engine-SLA, wenn dieses angehängte GPU-Modell allgemein verfügbar ist.

In Regionen mit mehreren Zonen gilt der Compute Engine-SLA nur für die VM, wenn das GPU-Modell in mehr als einer Zone in dieser Region verfügbar ist. Informationen zu GPU-Modellen nach Region finden Sie unter GPU-Regionen und -Zonen.
Compute Engine unterstützt die Ausführung von 1 gleichzeitigen Nutzer pro GPU.
Einschränkungen für jeden Maschinentyp mit angehängten GPUs