Questa guida fornisce le best practice per la progettazione, l'implementazione, il test e il deployment di un servizio Cloud Run. Per altri suggerimenti, consulta la sezione Eseguire la migrazione di un servizio esistente.
Scrivere servizi efficaci
Questa sezione descrive le best practice generali per la progettazione e l'implementazione di un servizio Cloud Run.
Attività in background
L'attività in background è tutto ciò che accade dopo che la risposta HTTP è stata recapitata. Per determinare se nel tuo servizio è presente un'attività in background non immediatamente evidente, controlla i log per verificare se è presente qualcosa registrato dopo la voce relativa alla richiesta HTTP.
Configura la fatturazione basata sulle istanze per utilizzare le attività in background
Se vuoi supportare le attività in background nel tuo servizio Cloud Run, imposta il servizio Cloud Run sulla fatturazione basata sulle istanze in modo da poter eseguire le attività in background al di fuori delle richieste e avere comunque accesso alla CPU.
Evitare attività in background se utilizzi la fatturazione basata sulle richieste
Se devi impostare il servizio sulla fatturazione basata sulle richieste, quando il servizio Cloud Run termina la gestione di una richiesta, l'accesso alla CPU dell'istanza viene disattivato o limitato. Se utilizzi questo tipo di fatturazione, non devi avviare thread o routine in background che vengono eseguiti al di fuori dell'ambito dei gestori delle richieste.
Controlla il codice per assicurarti che tutte le operazioni asincrone vengano completate prima di fornire la risposta.
L'esecuzione di thread in background con la fatturazione basata sulle richieste abilitata può comportare un comportamento imprevisto perché qualsiasi richiesta successiva alla stessa istanza del container riprende qualsiasi attività in background sospesa.
Eliminare i file temporanei
Nell'ambiente Cloud Run, lo spazio di archiviazione su disco è un file system in memoria. I file scritti su disco consumano la memoria altrimenti disponibile per il servizio e possono persistere tra le invocazioni. La mancata eliminazione di questi file può alla fine causare un errore di memoria insufficiente e un successivo avvio lento dei container.
Segnalare errori
Gestisci tutte le eccezioni e non lasciare che il servizio si arresti in modo anomalo in caso di errori. Un arresto anomalo comporta un avvio lento del container mentre il traffico viene messo in coda per un'istanza di sostituzione.
Consulta la guida a Error Reporting per informazioni su come segnalare correttamente gli errori.
Ottimizza le prestazioni
Questa sezione descrive le best practice per ottimizzare il rendimento.
Avviare rapidamente i container
Poiché le istanze vengono scalate in base alle necessità, il loro tempo di avvio influisce sulla latenza del servizio. Cloud Run disaccoppia l'avvio dell'istanza e l'elaborazione delle richieste, quindi in alcuni casi una richiesta deve attendere l'avvio di una nuova istanza prima di essere elaborata. Ciò si verifica in genere quando un servizio viene scalato da zero.
La routine di avvio è costituita da:
- Download dell'immagine container (utilizzando la tecnologia di streaming delle immagini container di Cloud Run)
- Avvio del container eseguendo il comando entrypoint.
- In attesa che il container inizi ad ascoltare sulla porta configurata.
L'ottimizzazione per la velocità di avvio dei container riduce al minimo la latenza di elaborazione delle richieste.
Utilizza il boosting della CPU all'avvio per ridurre la latenza di avvio
Puoi attivare il boosting della CPU all'avvio per aumentare temporaneamente l'allocazione della CPU durante l'avvio dell'istanza al fine di ridurre la latenza di avvio.
Utilizza il numero minimo di istanze per ridurre i tempi di avvio del container
Puoi configurare le istanze minime e la concorrenza per ridurre al minimo i tempi di avvio del container. Ad esempio, l'utilizzo di un numero minimo di istanze pari a 1 significa che il servizio è pronto a ricevere fino al numero di richieste simultanee configurate per il servizio senza dover avviare una nuova istanza.
Tieni presente che una richiesta in attesa dell'avvio di un'istanza verrà mantenuta in attesa in una coda come segue:
Le richieste rimarranno in attesa fino a 3, 5 volte il tempo di avvio medio delle istanze di container di questo servizio o 10 secondi, a seconda di quale sia il valore maggiore.
Utilizzare le dipendenze in modo strategico
Se utilizzi un linguaggio dinamico con librerie dipendenti, ad esempio l'importazione di moduli in Node.js, il tempo di caricamento di questi moduli si aggiunge alla latenza di avvio.
Riduci la latenza di avvio nei seguenti modi:
- Minimizza il numero e le dimensioni delle dipendenze per creare un servizio snello.
- Carica in modo differito il codice utilizzato di rado, se la tua lingua lo supporta.
- Utilizza ottimizzazioni del caricamento del codice come l'ottimizzazione del caricamento automatico di Composer di PHP.
Utilizzare le variabili globali
In Cloud Run, non puoi presupporre che lo stato del servizio venga mantenuto tra le richieste. Tuttavia, Cloud Run riutilizza le singole istanze per gestire il traffico continuo, quindi puoi dichiarare una variabile nell'ambito globale per consentire il riutilizzo del suo valore nelle invocazioni successive. Non è possibile sapere in anticipo se una singola richiesta beneficerà di questo riutilizzo.
Puoi anche memorizzare nella cache gli oggetti in memoria se è costoso ricrearli a ogni richiesta di servizio. Lo spostamento di questo elemento dalla logica della richiesta all'ambito globale comporta un miglioramento del rendimento.
Node.js
Python
Go
Java
Esegui l'inizializzazione lazy delle variabili globali
L'inizializzazione delle variabili globali avviene sempre durante l'avvio, il che aumenta il tempo di avvio del container. Utilizza l'inizializzazione differita per gli oggetti utilizzati di rado per posticipare il costo del tempo e ridurre i tempi di avvio del container.
Uno svantaggio dell'inizializzazione differita è l'aumento della latenza per le prime richieste alle nuove istanze. Ciò può causare un overscaling e richieste eliminate quando deploy una nuova revisione di un servizio che gestisce attivamente molte richieste.
Node.js
Python
Go
Java
Utilizzare un ambiente di esecuzione diverso
Potresti riscontrare tempi di avvio più rapidi utilizzando un ambiente di esecuzione diverso.
Ottimizza la concorrenza
Le istanze Cloud Run possono gestire più richieste contemporaneamente, in parallelo, fino a un numero massimo di richieste in parallelo configurabile.
Cloud Run regola automaticamente la concorrenza fino al massimo configurato.
La concorrenza massima predefinita di 80 è adatta a molte immagini container. Tuttavia, devi:
- Diminuiscilo se il tuo container non è in grado di elaborare molte richieste simultanee.
- Aumentalo se il contenitore è in grado di gestire un volume elevato di richieste.
Ottimizzare la concorrenza per il servizio
Il numero di richieste simultanee che ogni istanza può gestire può essere limitato dallo stack tecnologico e dall'utilizzo di risorse condivise come variabili e connessioni al database.
Per ottimizzare il servizio per la massima contemporaneità stabile:
- Ottimizza il rendimento del servizio.
- Imposta il livello previsto di supporto della concorrenza in qualsiasi configurazione della concorrenza a livello di codice. Non tutti gli stack tecnologici richiedono questa impostazione.
- Esegui il deployment del servizio.
- Imposta la concorrenza di Cloud Run per il tuo servizio in modo che sia uguale o inferiore a qualsiasi configurazione a livello di codice. Se non è presente alcuna configurazione a livello di codice, utilizza la concorrenza prevista.
- Utilizza strumenti di test di carico che supportano una concorrenza configurabile. Devi confermare che il tuo servizio rimanga stabile con il carico e la concorrenza previsti.
- Se il servizio non funziona bene, vai al passaggio 1 per migliorarlo o al passaggio 2 per ridurre la concorrenza. Se il servizio funziona bene, torna al passaggio 2 e aumenta la concorrenza.
Continua a eseguire iterazioni finché non trovi la concorrenza stabile massima.
Abbinare la memoria alla concorrenza
Ogni richiesta gestita dal tuo servizio richiede una certa quantità di memoria aggiuntiva. Pertanto, quando aumenti o diminuisci la concorrenza, assicurati di regolare anche il limite di memoria.
Evita lo stato globale modificabile
Se vuoi sfruttare lo stato globale modificabile in un contesto simultaneo, adotta misure aggiuntive nel codice per assicurarti che questa operazione venga eseguita in modo sicuro. Riduci al minimo la contesa limitando le variabili globali all'inizializzazione una tantum e al riutilizzo, come descritto sopra in Prestazioni.
Se utilizzi variabili globali modificabili in un servizio che gestisce più richieste contemporaneamente, assicurati di utilizzare blocchi o mutex per evitare race condition.
Compromessi tra velocità effettiva, latenza e costi
La regolazione dell'impostazione del numero massimo di richieste simultanee può contribuire a bilanciare il compromesso tra throughput, latenza e costi per il tuo servizio.
In generale, un'impostazione del numero massimo di richieste simultanee più basso comporta una latenza inferiore e un throughput inferiore per istanza. Con un numero massimo inferiore di richieste simultanee, un numero inferiore di richieste compete per le risorse all'interno di ogni istanza e ogni richiesta ottiene prestazioni migliori. Tuttavia, poiché ogni istanza può gestire meno richieste contemporaneamente, la velocità effettiva per istanza è inferiore e il servizio ha bisogno di più istanze per gestire lo stesso traffico.
Nella direzione opposta, un'impostazione del numero massimo di richieste simultanee più elevata generalmente comporta una latenza e un throughput più elevati per istanza. Le richieste potrebbero dover attendere l'accesso a risorse come CPU, GPU e larghezza di banda della memoria all'interno dell'istanza, il che comporta una maggiore latenza. ma ogni istanza può elaborare più richieste contemporaneamente, in modo che il servizio abbia bisogno di meno istanze in totale per elaborare lo stesso traffico.
Considerazioni sui costi
I prezzi di Cloud Run si basano sul tempo di utilizzo di ogni istanza. Se imposti la fatturazione basata sulle istanze, il tempo di istanza è la durata totale di ogni istanza. Se imposti la fatturazione basata sulle richieste, il tempo di istanza è il tempo che ogni istanza trascorre a elaborare almeno una richiesta.
L'impatto del numero massimo di richieste simultanee sulla fatturazione dipende dal pattern di traffico. La riduzione delle richieste simultanee massime può comportare una fattura inferiore se l'impostazione inferiore comporta
- Latenza ridotta
- Istanze che completano il lavoro più velocemente
- Istanze che si chiudono più rapidamente anche se sono necessarie più istanze totali
Ma è possibile anche il contrario: la riduzione delle richieste simultanee massime può aumentare la fatturazione se l'aumento del numero di istanze non è compensato dalla riduzione del tempo di esecuzione di ciascuna istanza, a causa della latenza migliorata.
Il modo migliore per ottimizzare la fatturazione è tramite il test di carico utilizzando diverse impostazioni per le richieste simultanee massime per identificare l'impostazione che genera il tempo di istanza fatturabile più basso, come mostrato nella metrica di monitoraggio container/billable_instance_time.
Sicurezza dei container
Molte pratiche di sicurezza del software per scopi generali si applicano ai servizi containerizzati. Esistono alcune pratiche specifiche per i container o che sono in linea con la filosofia e l'architettura dei container.
Per migliorare la sicurezza dei contenitori:
Utilizza immagini di base sicure e gestite attivamente, come le immagini di base di Google o le immagini ufficiali di Docker Hub.
Applica gli aggiornamenti della sicurezza ai tuoi servizi ricompilando regolarmente le immagini dei container e eseguendo nuovamente il deployment dei servizi.
Includi nel container solo ciò che è necessario per eseguire il servizio. Codice, pacchetti e strumenti aggiuntivi sono potenziali vulnerabilità della sicurezza. Vedi sopra l'impatto sul rendimento correlato.
Implementa un processo di build deterministico che includa versioni specifiche di software e librerie. In questo modo, il codice non verificato non viene incluso nel contenitore.
Imposta l'esecuzione del container come utente diverso da
root
con l'istruzione DockerfileUSER
. Alcune immagini container potrebbero avere già un utente specifico configurato.Impedisci l'utilizzo delle funzionalità di anteprima utilizzando policy dell'organizzazione personalizzate.
Automatizzare la scansione di sicurezza
Abilita l'analisi delle vulnerabilità per l'analisi della sicurezza delle immagini container archiviate in Artifact Registry.
Crea immagini container minimali
Le immagini container di grandi dimensioni aumentano probabilmente le vulnerabilità della sicurezza perché contengono più di quanto necessario per il codice.
Grazie alla tecnologia di streaming delle immagini container di Cloud Run, le dimensioni dell'immagine container non influiscono sui tempi di avvio del container o sul tempo di elaborazione delle richieste. Anche le dimensioni dell'immagine container non vengono conteggiate nella memoria disponibile del container.
Per creare un container minimale, valuta la possibilità di utilizzare un'immagine di base leggera come:
Ubuntu ha dimensioni maggiori, ma è un'immagine di base comunemente utilizzata con un ambiente server più completo.
Se il tuo servizio ha un processo di compilazione con molti strumenti, valuta la possibilità di utilizzare compilazioni in più fasi per mantenere leggero il container in fase di runtime.
Queste risorse forniscono ulteriori informazioni sulla creazione di immagini container lean:
- Best practice per Kubernetes: come e perché creare immagini container di piccole dimensioni
- 7 best practice per la creazione di container