Per accelerare workload specifici su Compute Engine, puoi eseguire il deployment di una VM ottimizzata per l'acceleratore a cui sono collegate GPU oppure collegare GPU a una VM N1 di uso generale.
Questo documento descrive le funzionalità e i limiti delle GPU in esecuzione su Compute Engine.
Puoi anche utilizzare alcuni tipi di macchine con GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i tuoi workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per Google Kubernetes Engine (GKE) e gli scheduler Slurm.
GPU e serie di macchine
Le GPU sono supportate per le serie di macchine ottimizzate per l'acceleratore (A4X, A4, A3, A2 e G2) e per la serie di macchine per uso generico N1. Per le VM che utilizzano tipi di macchine ottimizzati per l'acceleratore, le GPU vengono collegate automaticamente quando crei la VM. Per le VM che utilizzano tipi di macchine N1, colleghi la GPU alla VM durante o dopo la creazione. Le GPU non sono utilizzabili con altre serie di macchine.
Serie di macchine ottimizzate per l'acceleratore
A ogni tipo di macchina ottimizzata per l'acceleratore è collegato un modello specifico di GPU NVIDIA.
- Ai tipi di macchine A4X sono collegati superchip NVIDIA GB200.
- Per i tipi di macchine A4, sono collegate GPU NVIDIA B200.
- Ai tipi di macchine A3
sono collegate GPU NVIDIA H100 da 80 GB o NVIDIA H200 da 141 GB. Sono disponibili
nelle seguenti opzioni:
- A3 Ultra: a questi tipi di macchine sono collegate GPU H200 da 141 GB
- A3 Mega: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- A3 High: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- A3 Edge: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- Ai tipi di macchine A2
sono collegate GPU NVIDIA A100. Sono disponibili nelle seguenti opzioni:
- A2 Ultra: a questi tipi di macchine sono collegate GPU A100 da 80 GB
- A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB
- Per i tipi di macchine G2, sono collegate GPU NVIDIA L4.
Per saperne di più, consulta Serie di macchine ottimizzate per l'acceleratore.
Serie di macchine per uso generico N1
Per tutti gli altri tipi di GPU, puoi utilizzare la maggior parte dei tipi di macchine N1, ad eccezione di
N1 con core condivisi (f1-micro
e g1-small
).
Per questa serie di macchine, puoi utilizzare tipi di macchine predefiniti o personalizzati.
GPU sulle VM spot
Puoi aggiungere GPU alle VM spot a prezzi di Spot inferiori. Le GPU collegate alle VM spot funzionano come normali GPU, ma rimangono attive solo per la durata della VM. Le VM spot con GPU seguono lo stesso processo di prerilascio di tutte le VM spot.
Valuta la possibilità di richiedere una quota Preemptible GPU
dedicata da utilizzare per le GPU
sulle VM spot. Per ulteriori informazioni, consulta
Quote per le VM spot.
Durante gli eventi di manutenzione, le VM spot con GPU vengono prerilasciate per impostazione predefinita e non possono essere riavviate automaticamente. Se vuoi ricreare le VM dopo che sono state prerilasciate, utilizza un gruppo di istanze gestite. I gruppi di istanze gestite ricreano le istanze VM se vCPU, memoria e risorse GPU sono disponibili.
Se vuoi ricevere un avviso prima che le VM vengano prerilasciate o se vuoi configurarle in modo che si riavviino automaticamente dopo un evento di manutenzione, utilizza VM standard con una GPU. Per le VM standard con GPU, Compute Engine fornisce un preavviso di un'ora prima del prerilascio.
Compute Engine non ti addebita alcun utilizzo della GPU se le VM vengono prerilasciate nel primo minuto dall'inizio della loro esecuzione.
Per scoprire come creare VM spot con GPU collegate, leggi Crea una VM con GPU collegate e Crea VM spot. Ad esempio, consulta Crea un'istanza A3 Ultra o A4 utilizzando le VM spot.
GPU su VM con runtime predefiniti
Le VM che utilizzano il modello di provisioning standard in genere non possono utilizzare le quote di allocazione prerilasciabili. Le quote prerilasciabili sono per carichi di lavoro temporanei e sono generalmente più disponibili. Se il tuo progetto non ha una quota prerilasciabile e non l'hai mai richiesta, tutte le VM del progetto utilizzano le quote di allocazione standard.
Se richiedi una quota di allocazione prerilasciabile, le VM che utilizzano il modello di provisioning standard devono soddisfare tutti i seguenti criteri per consumare la quota di allocazione prerilasciabile:
- Le VM hanno GPU collegate.
- Le VM sono configurate per essere eliminate automaticamente dopo un tempo di esecuzione predefinito
tramite il campo
maxRunDuration
oterminationTime
. Per ulteriori informazioni, consulta quanto segue: - La VM non è autorizzata a utilizzare le prenotazioni. Per saperne di più, consulta Impedire alle istanze di calcolo di utilizzare le prenotazioni.
Quando utilizzi l'allocazione prerilasciabile per i carichi di lavoro GPU con limiti di tempo, puoi beneficiare sia del tempo di esecuzione ininterrotto sia dell'elevata ottenibilità della quota di allocazione prerilasciabile. Per saperne di più, consulta Quote di preemptive.
GPU e Confidential VM
Puoi utilizzare una GPU con un'istanza di Confidential VM utilizzando Intel TDX sulla serie di macchine A3. Per maggiori informazioni, consulta le configurazioni supportate di Confidential VM. Per scoprire come creare un'istanza Confidential VM con GPU, consulta Crea un'istanza Confidential VM con GPU.
GPU e archiviazione a blocchi
Quando crei una VM su una piattaforma GPU, puoi aggiungere un'archiviazione a blocchi permanente o temporanea alla VM. Per archiviare dati non temporanei, utilizza l'archiviazione a blocchi permanente come Hyperdisk o Persistent Disk perché i dischi sono indipendenti dal ciclo di vita della VM. I dati sullo spazio di archiviazione permanente possono essere conservati anche dopo l'eliminazione della VM.
Per l'archiviazione temporanea o le cache, utilizza l'archiviazione a blocchi temporanea aggiungendo dischi SSD locali quando crei la VM.
Archiviazione a blocchi permanente con volumi di Persistent Disk e Hyperdisk
Puoi collegare Persistent Disk e selezionare volumi Hyperdisk con VM abilitate per la GPU.
Per i carichi di lavoro di addestramento e distribuzione del machine learning, Google consiglia di utilizzare i volumi Hyperdisk ML, che offrono un throughput elevato e tempi di caricamento dei dati più brevi. Ciò rende Hyperdisk ML un'opzione più conveniente per i carichi di lavoro di ML perché offre tempi di inattività della GPU inferiori.
I volumi Hyperdisk ML forniscono il supporto multi-attach di sola lettura, quindi puoi collegare lo stesso disco a più VM, consentendo a ciascuna VM di accedere agli stessi dati.
Per saperne di più sui tipi di dischi supportati per le serie di macchine che supportano le GPU, consulta le pagine delle serie di macchine N1 e ottimizzate per l'acceleratore.
Dischi SSD locali
I dischi SSD locali forniscono spazio di archiviazione temporaneo veloce per la memorizzazione nella cache, l'elaborazione dei dati o altri dati temporanei. I dischi SSD locali sono veloci perché sono collegati fisicamente al server che ospita la VM. Sono temporanei perché i dati vengono persi se la VM viene riavviata.
Non devi archiviare dati con requisiti di persistenza elevati sui dischi SSD locali. Per archiviare dati non temporanei, utilizza l'archiviazione permanente.
Se arresti manualmente una VM con una GPU, puoi conservare i dati dell'SSD locale, con alcune limitazioni. Per ulteriori dettagli, consulta la documentazione relativa agli SSD locali.
Per il supporto regionale dell'SSD locale con i tipi di GPU, consulta Disponibilità dell'SSD locale per regioni e zone GPU.
GPU e manutenzione dell'host
Le VM con GPU collegate vengono sempre arrestate quando Compute Engine esegue eventi di manutenzione sulle VM. Se la VM ha dischi SSD locali collegati, i dati sugli SSD locali vengono persi dopo l'arresto della VM.
Per informazioni sulla gestione degli eventi di manutenzione, consulta Gestione degli eventi di manutenzione degli host GPU.
Prezzi delle GPU
Per le VM con GPU collegate, i costi vengono addebitati come segue:
Se richiedi a Compute Engine di eseguire il provisioning delle GPU utilizzando il modello di provisioning spot, flessibile o vincolato alla prenotazione, ottieni un prezzo scontato, a seconda del tipo di GPU.
La maggior parte delle VM a cui sono collegate GPU riceve sconti per utilizzo sostenuto (SUD), simili a quelli delle vCPU. Quando selezioni una GPU per una workstation virtuale, Compute Engine aggiunge automaticamente una licenza per workstation virtuale NVIDIA RTX alla tua VM.
Per i prezzi orari e mensili delle GPU, consulta la pagina dei prezzi delle GPU.
Prenotazione di GPU con sconti per impegno di utilizzo
Per prenotare risorse GPU in una zona specifica, consulta la sezione Scegliere un tipo di prenotazione.
Per ricevere sconti per impegno di utilizzo per le GPU in una zona specifica, devi acquistare impegni basati sulle risorse per le GPU e collegare anche prenotazioni che specificano GPU corrispondenti agli impegni. Per saperne di più, consulta Collegare le prenotazioni agli impegni basati sulle risorse.
Limitazioni e restrizioni della GPU
Per le VM con GPU collegate, si applicano le seguenti limitazioni e restrizioni:
Le GPU sono supportate solo con i tipi di macchine ottimizzati per l'acceleratore (A4X, A4, A3, A2 e G2) o perN1 per uso generico1.
Per proteggere i sistemi e gli utenti di Compute Engine, i nuovi progetti hanno una quota GPU globale, che limita il numero totale di GPU che puoi creare in qualsiasi zona supportata. Quando richiedi una quota GPU, devi richiederne una per i modelli di GPU che vuoi creare in ciascuna regione e una globale aggiuntiva per il numero totale di GPU di tutti i tipi in tutte le zone.
Le VM con una o più GPU hanno un numero massimo di vCPU per ogni GPU che aggiungi alla VM. Per visualizzare gli intervalli di vCPU e memoria disponibili per le diverse configurazioni GPU, consulta l'elenco delle GPU.
Per funzionare correttamente, le GPU richiedono i driver del dispositivo. Le GPU NVIDIA in esecuzione su Compute Engine devono utilizzare una versione minima del driver. Per saperne di più sulle versioni dei driver, consulta Versioni dei driver NVIDIA richieste.
Le VM con modello di GPU collegato sono coperte dallo SLA di Compute Engine solo se il modello di GPU collegato è disponibile a livello generale.
Per le regioni con più zone, lo SLA di Compute Engine copre la VM solo se il modello di GPU è disponibile in più di una zona all'interno di quella regione. Per i modelli di GPU per regione, consulta Regioni e zone GPU.
Compute Engine supporta l'esecuzione di un utente simultaneo per GPU.
Consulta anche le limitazioni per ogni tipo di macchina con GPU collegate.
Passaggi successivi
- Scopri come creare VM con GPU collegate.
- Scopri come aggiungere o rimuovere GPU.
- Scopri come creare un'istanza Confidential VM con una GPU collegata.