Archiviazione di file su Compute Engine

Last reviewed 2025-05-19 UTC

L'archiviazione file, nota anche come NAS (Network Attached Storage), fornisce alle applicazioni accesso a livello di file per leggere e aggiornare le informazioni che possono essere condivise su più macchine. Alcune soluzioni di archiviazione file on-premise hanno un'architettura a scalabilità verticale e aggiungono semplicemente spazio di archiviazione a una quantità fissa di risorse di calcolo. Altre soluzioni di archiviazione dei file hanno un'architettura scalabile in cui la capacità e il calcolo (prestazioni) possono essere aggiunti in modo incrementale a un file system esistente in base alle esigenze. In entrambe le architetture di archiviazione, una o più macchine virtuali (VM) possono accedere allo spazio di archiviazione.

Sebbene alcuni file system utilizzino un client POSIX nativo, molti sistemi di archiviazione utilizzano un protocollo che consente alle macchine client di montare un file system e accedere ai file come se fossero ospitati localmente. I protocolli più comuni per l'esportazione delle condivisioni file sono Network File System (NFS) per Linux (e in alcuni casi Windows) e Server Message Block (SMB) per Windows.

Questo documento descrive le seguenti opzioni per la condivisione dei file:

Un fattore alla base delle prestazioni e della prevedibilità di tutti i Google Cloud servizi è lo stack di rete sviluppato da Google nel corso di molti anni. Con Jupiter Fabric, Google ha creato uno stack di rete solido, scalabile e stabile che può continuare a evolversi senza influire sui tuoi carichi di lavoro. Man mano che Google migliora e rafforza le sue capacità di rete internamente, la tua soluzione di condivisione file beneficia delle prestazioni aggiuntive.

Una funzionalità di Google Cloud che può aiutarti a ottenere il massimo dal tuo investimento è la possibilità di specificare tipi di VM personalizzate. Quando scegli le dimensioni del filer, puoi scegliere esattamente la combinazione ottimale di memoria e CPU, in modo che il filer funzioni con prestazioni ottimali senza essere sovrascritto.

Tieni presente che Cloud Storage è anche un ottimo modo per archiviare petabyte o exabyte di dati con elevati livelli di redundanza a basso costo, ma Cloud Storage ha un profilo di prestazioni e un'API diversi rispetto ai file server discussi qui.

Riepilogo delle soluzioni per i file server

La tabella seguente riassume le soluzioni e le funzionalità dei file server:

Soluzione Set di dati ottimale Velocità effettiva Assistenza gestita Protocolli di esportazione
Filestore Basic Da 1 TiB a 64 TiB Fino a 1,2 GiB/s Completamente gestito da Google NFSv3
Filestore Zonal Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3, NFSv4.1
Filestore a livello di regione Da 1 TiB a 100 TiB Fino a 26 GiB/s Completamente gestito da Google NFSv3, NFSv4.1
Google Cloud NetApp Volumes Da 1 GiB a 1 PiB Da 1 MB/s a 30 GiB/s Completamente gestito da Google NFSv3, NFSv4.1, SMB3
Persistent Disk di sola lettura < 64 TB Da 240 a 1200 MBps No Allegato diretto

Dischi durevoli e SSD locale

Se hai dati a cui deve accedere solo una singola VM o che non cambiano nel tempo, puoi evitare del tutto un file server utilizzando i dischi durevoli offerti da Compute Engine, ovvero Hyperdisk o Persistent Disk. Puoi formattare i volumi brevi Hyperdisk e Persistent Disk con un file system come Ext4 o XFS e collegarli alle VM in modalità di lettura e scrittura o di sola lettura. Ciò significa che puoi prima collegare un volume a un'istanza, caricarlo con i dati di cui hai bisogno e poi collegarlo come disco di sola lettura a centinaia di VM contemporaneamente. L'utilizzo di dischi di sola lettura non funziona per tutti i casi d'uso, ma può ridurre notevolmente la complessità rispetto all'utilizzo di un file server.

I dischi durevoli offrono prestazioni costanti. Tutti i volumi del disco permanente delle stesse dimensioni (e per il disco permanente SSD, lo stesso numero di vCPU) che colleghi alla tua istanza hanno le stesse caratteristiche di prestazioni. Non è necessario preriscaldare o testare i dischi prima di utilizzarli in produzione.

Il costo dei dischi permanenti è facile da determinare perché non ci sono costi di I/O da considerare dopo il provisioning del volume. Anche i dischi permanenti possono essere ridimensionati, se necessario. In questo modo puoi iniziare con un volume a basso costo e a bassa capacità e non devi creare istanze o dischi aggiuntivi per scalare la capacità.

Se la capacità di archiviazione totale è il requisito principale, puoi utilizzare dischi permanenti standard a basso costo. Per ottenere le migliori prestazioni mantenendo la durata, puoi utilizzare i dischi permanenti SSD.

Inoltre, è importante scegliere la capacità disco permanente e il numero di vCPU di Compute Engine corretti per assicurarti che i dispositivi di archiviazione del file server ricevano la larghezza di banda di archiviazione, le IOPS e la larghezza di banda di rete richieste. La larghezza di banda di rete per le VM dipende dal tipo di macchina scelto. Ad esempio, le VM A4 hanno una larghezza di banda di rete massima fino a 3600 Gbps. Per saperne di più, consulta la guida alle risorse e al confronto per le famiglie di macchine. Per informazioni sull'ottimizzazione dei dischi permanenti, consulta Informazioni sulle prestazioni dei dischi permanenti.

Se i tuoi dati sono temporanei e richiedono una latenza inferiore al millisecondo e un elevato numero di operazioni IOPS al secondo, puoi sfruttare fino a 9 TB di SSD locali per prestazioni estreme. Le unità SSD locali forniscono GBps di larghezza di banda e milioni di IOPS, il tutto senza utilizzare la larghezza di banda di rete allocata delle istanze. Tuttavia, è importante ricordare che le unità SSD locali presentano alcuni compromessi in termini di disponibilità, durata e flessibilità.

Per ulteriori informazioni sulle opzioni di archiviazione per Compute Engine, consulta Progettare una strategia di archiviazione ottimale per il carico di lavoro cloud.

Considerazioni per la scelta di una soluzione di archiviazione dei file

La scelta di una soluzione di archiviazione dei file richiede di fare dei compromessi in termini di gestione, costi, prestazioni e scalabilità. Prendere la decisione è più facile se hai un carico di lavoro ben definito, il che non è spesso il caso. Se i carichi di lavoro si evolvono nel tempo o sono molto variabili, è consigliabile compensare i risparmi sui costi con flessibilità ed elasticità, in modo da poter crescere con la tua soluzione. D'altra parte, se hai un workload temporaneo e ben noto, puoi creare un'architettura di archiviazione file appositamente progettata che puoi smantellare e ricostruire per soddisfare le tue immediate esigenze di archiviazione.

Una delle prime decisioni da prendere è se pagare per un servizio di archiviazione gestito, una soluzione che include l'assistenza per il prodotto o una soluzione non supportata.

  • I servizi di archiviazione di file gestiti sono i più semplici da utilizzare, perché tutte le operazioni vengono gestite da Google o da un partner. Questi servizi potrebbero persino fornire un accordo sul livello del servizio (SLA) per la disponibilità, come la maggior parte degli altri Google Cloud servizi.
  • Le soluzioni non gestite, ma supportate, offrono ulteriore flessibilità. I partner possono aiutarti in caso di problemi, ma il funzionamento quotidiano della soluzione di archiviazione è lasciato all'utente.
  • Le soluzioni non supportate richiedono il massimo impegno per il deployment e la manutenzione, lasciando tutti i problemi all'utente. Queste soluzioni non sono coperte da questo documento.

La decisione successiva consiste nel determinare i requisiti di durata e disponibilità della soluzione. La maggior parte delle soluzioni per i file sono soluzioni zonali e non forniscono protezione per impostazione predefinita in caso di errore nella zona. È quindi importante valutare se è necessaria una soluzione di ripristino di emergenza (RE) che protegga da eventuali errori a livello di zona. È inoltre importante comprendere i requisiti dell'applicazione per la durata e la disponibilità. Ad esempio, la scelta di unità SSD locali o dischi permanenti nel deployment ha un impatto significativo, così come la configurazione del software della soluzione di file. Ogni soluzione richiede una pianificazione accurata per ottenere elevata durabilità, disponibilità e persino protezione da errori a livello di zona e regione.

Infine, tieni conto delle località (ovvero zone, regioni, data center on-premise) a cui devi accedere ai dati. Le sedi dei farm di calcolo che accedono ai tuoi dati influiscono sulla scelta della soluzione di filer perché solo alcune soluzioni consentono l'accesso ibrido on-premise e in cloud.

Soluzioni di archiviazione file gestite

Questa sezione descrive le soluzioni gestite da Google per l'archiviazione dei file.

Filestore Basic

Le istanze Filestore Basic sono adatte per la condivisione di file, lo sviluppo di software e i carichi di lavoro GKE. Puoi scegliere HDD o SSD per l'archiviazione dei dati. L'SSD offre prestazioni migliori. Con entrambe le opzioni, la capacità aumenta in modo incrementale e puoi proteggere i dati utilizzando i backup.

Filestore Zonal

Filestore Zonal semplifica la gestione dei dati e dello spazio di archiviazione aziendale su Google Cloud etra cloud ibridi. Filestore Zonal offre accesso parallelo economicamente conveniente e ad alte prestazioni ai dati globali, mantenendo al contempo una consistenza rigorosa grazie a un file system distribuito e scalabile dinamicamente. Con Filestore Zonal, le applicazioni NFS esistenti e i flussi di lavoro NAS possono essere eseguiti nel cloud senza richiedere il refactoring, pur mantenendo i vantaggi dei servizi di dati aziendali (ad esempio snapshot e backup). Il driver CSI Filestore consente la persistenza, la portabilità e la condivisione dei dati senza interruzioni per i carichi di lavoro con contenitori.

Puoi scalare le istanze zonali Filestore in base alle esigenze. In questo modo, puoi creare ed espandere l'infrastruttura del file system in base alle esigenze, assicurandoti che le prestazioni e la capacità di archiviazione siano sempre in linea con i requisiti del tuo flusso di lavoro dinamico. Man mano che un cluster zonale Filestore si espande, sia le prestazioni dei metadati che quelle di I/O aumentano in modo lineare. Questa scalabilità ti consente di migliorare e accelerare una vasta gamma di flussi di lavoro che richiedono un uso intensivo dei dati, tra cui computing ad alte prestazioni, analisi, aggregazione di dati tra siti, DevOps e molti altri. Di conseguenza, Filestore Zonal è ideale per l'utilizzo in settori incentrati sui dati come le scienze biologiche (ad esempio la sequenziazione del genoma), i servizi finanziari e i media e l'intrattenimento.

Per proteggere ulteriormente i dati critici, Filestore Zonal ti consente anche di eseguire e conservare snapshot periodici, creare backup e eseguire la replica in un'altra regione. Con Filestore, puoi recuperare un singolo file o un intero sistema di file in meno di 10 minuti da uno dei punti di recupero precedenti.

Filestore a livello di regione

Filestore Regional è una soluzione NFS cloud-native completamente gestita che ti consente di eseguire il deployment di applicazioni basate su file critiche in Google Cloud, supportata da uno SLA che garantisce una disponibilità a livello di regione del 99,99%. Con un SLA (accordo sul livello del servizio) con disponibilità a livello di area geografica del 99,99%, Filestore Regional è progettato per le applicazioni che richiedono un'alta disponibilità. Con pochi clic del mouse (o con alcuni comandi gcloud o chiamate API), puoi eseguire il provisioning delle condivisioni NFS che vengono replicate in modo sincrono su tre zone all'interno di una regione. Se una zona all'interno della regione diventa non disponibile, Filestore Regional continua a fornire in modo trasparente i dati all'applicazione senza alcun intervento operativo.

Per proteggere ulteriormente i dati critici, Filestore Regional ti consente anche di acquisire e conservare snapshot periodici, creare backup e eseguire la replica in un'altra regione. Con Filestore, puoi recuperare un singolo file o un intero sistema di file in meno di 10 minuti da uno dei punti di recupero precedenti.

Per proteggere ulteriormente i dati critici, Filestore ti consente anche di acquisire e conservare snapshot periodici del file system. Con Filestore, puoi recuperare un singolo file o un intero file system in meno di 10 minuti da uno dei punti di recupero precedenti.

Per le applicazioni critiche come SAP, è necessario che sia il livello del database sia quello dell'applicazione siano ad alta disponibilità. Per soddisfare questo requisito, puoi eseguire il deployment del livello del database SAP su Google Cloud Hyperdisk Extreme in più zone utilizzando l'alta disponibilità del database integrata. Analogamente, il livello di applicazione NetWeaver, che richiede eseguibili condivisi su molte VM, può essere implementato in Filestore Regional, che replica i dati di Netweaver in più zone all'interno di una regione. Il risultato finale è un'architettura di applicazioni mission-critical a tre livelli ad alta disponibilità.

Inoltre, le organizzazioni IT eseguono sempre più spesso il deployment di applicazioni stateful in contenuti su Google Kubernetes Engine (GKE). Spesso questo li porta a ripensare all'infrastruttura di archiviazione da utilizzare per supportare queste applicazioni. Puoi utilizzare l'archiviazione a blocchi (Hyperdisk o Persistent Disk), l'archiviazione di file (Filestore Basic, Zonal o Regional) o l'archiviazione di oggetti (Cloud Storage). Filestore Basic HDD per GKE e Filestore Multishares per GKE combinati con il driver CSI Filestore consentono alle organizzazioni che richiedono più pod GKE di avere accesso ai file condivisi, fornendo un livello più elevato di disponibilità per i workload mission-critical.

NetApp Volumes

NetApp Volumes è un servizio Google completamente gestito che ti consente di montare rapidamente l'archiviazione di file condivisa sulle tue istanze di calcolo Google Cloud . NetApp Volumes supporta l'accesso SMB, NFS e multiprotocollo. NetApp Volumes offre alle tue applicazioni prestazioni elevate a bassa latenza, con funzionalità di protezione dei dati solide: snapshot, copie, replica tra regioni e backup. Il servizio è adatto per le applicazioni che richiedono carichi di lavoro sia sequenziali che casuali, che possono essere scalati su centinaia o migliaia di istanze Compute Engine. In pochi secondi, è possibile eseguire il provisioning e proteggere i volumi con dimensioni che vanno da pochi GB a un PiB con funzionalità di protezione dei dati efficaci. Con più livelli di servizio (Flex, Standard, Premium ed Extreme), NetApp Volumes offre le prestazioni appropriate per il tuo carico di lavoro, senza influire sulla disponibilità.

Google Cloud Managed Lustre

Managed Lustre è un servizio gestito da Google che fornisce uno spazio di archiviazione a bassa latenza e ad alta velocità effettiva per i carichi di lavoro HPC fortemente accoppiati. Accelera notevolmente i carichi di lavoro HPC e l'addestramento e l'inferenza dell'AI fornendo un accesso a bassa latenza e ad alta velocità effettiva a enormi set di dati. Per informazioni sull'utilizzo di Managed Lustre per i carichi di lavoro di AI e ML, consulta Progettare lo spazio di archiviazione per i carichi di lavoro di AI e ML in Google Cloud. Lustre gestito distribuisce i dati su più nodi di archiviazione, consentendo l'accesso simultaneo da parte di molte VM. Questo accesso parallelo elimina i colli di bottiglia che si verificano con i file system convenzionali e consente ai carichi di lavoro di importare ed elaborare rapidamente le grandi quantità di dati richieste.

Soluzioni partner in Cloud Marketplace

Le seguenti soluzioni fornite dai partner sono disponibili in Cloud Marketplace.

NetApp Cloud Volumes ONTAP

NetApp Cloud Volumes ONTAP (NetApp CVO) è una soluzione basata su cloud gestita dal cliente che offre l'intera funzionalità di ONTAP, il sistema operativo di gestione dei dati leader di NetApp, a Google Cloud. NetApp CVO viene implementato all'interno della tua VPC, con fatturazione e assistenza da parte di Google. Il software ONTAP viene eseguito su una VM Compute Engine e utilizza una combinazione di dischi permanenti e bucket Cloud Storage (se è abilitato il tiering) per archiviare i dati NAS. Il filer integrato supporta i volumi NAS utilizzando il provisioning a livello di file, in modo da pagare solo per lo spazio di archiviazione che utilizzi. Man mano che i dati aumentano, al pool di capacità aggregate vengono aggiunti altri dischi permanenti.

NetApp CVO esegue l'astrazione dell'infrastruttura sottostante e ti consente di creare volumi di dati virtuali ricavati dal pool aggregato che sono coerenti con tutti gli altri volumi ONTAP su qualsiasi ambiente cloud o on-premise. I volumi di dati che crei supportano tutte le versioni di NFS, SMB, NFS/SMB multiprotocollo e iSCSI. supportano una vasta gamma di carichi di lavoro basati su file, inclusi contenuti web e multimediali avanzati, utilizzati in molti settori come l'Electronic Design Automation (EDA) e i media e l'intrattenimento.

NetApp CVO supporta snapshot istantanei e in tempo reale che consentono di risparmiare spazio, backup incrementali a livello di blocco integrati in Cloud Storage e replica asincrona tra regioni per il ripristino di emergenza. L'opzione per selezionare il tipo di istanza Compute Engine e i dischi permanenti ti consente di ottenere le prestazioni desiderate per i tuoi carichi di lavoro. Anche quando opera in una configurazione ad alte prestazioni, NetApp CVO implementa ottimizzazioni di archiviazione come deduplica, compattazione e compressione, nonché il tiering automatico dei dati di uso frequente nel bucket Cloud Storage, consentendoti di archiviare petabyte di dati riducendo al contempo in modo significativo i costi di archiviazione complessivi.

DDN Infinia

Se hai bisogno di un'orchestrazione dei dati AI avanzata, puoi utilizzare DDN Infinia, che è disponibile in Google Cloud Marketplace. Infinia fornisce una soluzione di data intelligence incentrata sull'AI ottimizzata per l'inferenza, l'addestramento e l'analisi in tempo reale. Consente l'importazione ultraveloce dei dati, l'indicizzazione con metadati e l'integrazione senza problemi con framework di AI come TensorFlow e PyTorch.

Di seguito sono riportate le funzionalità principali di DDN Infinia:

  • Elevate prestazioni: offre una latenza inferiore al millisecondo e un throughput di più TB/s.
  • Scalabilità: supporta la scalabilità da terabyte a exabyte e può gestire fino a oltre 100.000 GPU e un milione di client simultanei in un unico deployment.
  • Multitenancy con qualità del servizio (QoS) prevedibile: offre ambienti sicuri e isolati per più tenant con QoS prevedibile per prestazioni coerenti tra i carichi di lavoro.
  • Accesso ai dati unificato: consente un'integrazione perfetta con le applicazioni e i flussi di lavoro esistenti tramite il supporto multiprotocollo integrato, incluso per la compatibilità con Amazon S3, CSI e Cinder.
  • Sicurezza avanzata: include crittografia integrata, codifica di eliminazione consapevole del dominio di errore e snapshot che contribuiscono a garantire la conformità e la protezione dei dati.

Nasuni Cloud File Storage

Nasuni sostituisce i file server e i dispositivi NAS aziendali e tutte le infrastrutture associate, incluso l'hardware di backup e RE, con un'alternativa cloud più semplice e a basso costo. Nasuni utilizza l' Google Cloud archiviazione di oggetti per offrire una soluzione di archiviazione SaaS (software-as-a-service) più efficiente e scalabile per gestire la crescita rapida e non strutturata dei dati dei file. Nasuni è progettato per gestire le condivisioni di file e i flussi di lavoro delle applicazioni per reparti, progetti e organizzazioni per ogni dipendente, ovunque lavori.

Nasuni Cloud File Storage.

Nasuni offre tre pacchetti, con prezzi per aziende e organizzazioni di tutte le dimensioni, in modo che possano crescere ed espandersi in base alle esigenze.

I vantaggi includono:

  • Spazio di archiviazione di file principale basato su cloud fino al 70% in meno. L'architettura di Nasuni sfrutta le norme di gestione del ciclo di vita degli oggetti incorporate. Questi criteri consentono una completa flessibilità per l'utilizzo con le classi Cloud Storage, tra cui Standard, Nearline, Coldline e Archive. Utilizzando la classe di archiviazione ad accesso immediato per lo spazio di archiviazione principale con Nasuni, puoi risparmiare fino al 70% sui costi.

  • Condivisioni file di reparti e organizzazioni nel cloud. L'architettura basata su cloud di Nasuni offre un unico spazio dei nomi globale in tutte le regioni, senza limiti al numero di file, alle dimensioni dei file o agli snapshot, consentendoti di archiviare i file direttamente dal tuo computer in Cloud tramite protocolli di mappatura dei dischi NAS (SMB) standard.Google Cloud Google Cloud

  • Backup e ripristino di emergenza integrati. Le operazioni "imposta e dimentica" di Nasuni semplificano la gestione dello spazio di archiviazione dei file a livello globale. Il backup e la RE sono inclusi e una singola console di gestione ti consente di supervisionare e controllare l'ambiente ovunque e in qualsiasi momento.

  • Sostituisce i file server obsoleti. Nasuni semplifica la migrazione dei file server Microsoft Windows e di altri sistemi di archiviazione file esistenti a Google Cloud, riducendo i costi e la complessità di gestione di questi ambienti.

Per ulteriori informazioni, consulta le seguenti risorse:

Sycomp Storage basato su IBM Storage Scale

Sycomp Storage Fueled by IBM Storage Scale, disponibile in Google Cloud Marketplace, ti consente di eseguire workload di computing ad alte prestazioni (HPC), di AI e ML e di big data in Google Cloud. Con Sycomp Storage puoi accedere contemporaneamente ai dati di migliaia di VM, ridurre i costi gestendo automaticamente i livelli di archiviazione ed eseguire la tua applicazione on-premise o in Google Cloud. Sycomp Storage può essere implementato rapidamente e supporta l'accesso ai dati tramite NFS e il client IBM Storage Scale.

IBM Storage Scale è un file system parallelo che consente di gestire in modo sicuro grandi volumi (PB) di dati. Sycomp Storage Scale è un file system parallelo adatto per HPC, AI, ML, big data e altre applicazioni che richiedono un file system condiviso conforme a POSIX. Con una capacità di archiviazione adattabile e la scalabilità delle prestazioni, Sycomp Storage può supportare workload HPC, AI e ML di piccole e grandi dimensioni.

Dopo aver disegnato un cluster in Google Cloud, decidi come utilizzarlo. Scegli se utilizzare il cluster solo nel cloud o in modalità ibrida collegandolo a cluster IBM Storage Scale on-premise esistenti, soluzioni NAS NFS di terze parti o altre soluzioni di archiviazione basate su oggetti.

Collaboratori

Autore: Sean Derrington | Group Outbound Product Manager, Storage

Altri collaboratori: