Questo documento elenca le quote e i limiti di sistema che si applicano a Dataflow.
- Le quote specificano la quantità di una risorsa condivisa e numerabile che puoi utilizzare. Le quote sono definite da servizi come Dataflow. Google Cloud
- I limiti di sistema sono valori fissi che non possono essere modificati.
Google Cloud Platform utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il tuo consumo di Google Cloud prodotti e servizi
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota e automatizzare gli aggiustamenti della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un Google Cloud progetto, le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.
Per maggiori informazioni, consulta la panoramica di Cloud Quotas.Per modificare la maggior parte delle quote, utilizza la Google Cloud console. Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.
Esistono anche limiti di sistema per le risorse Dataflow. I limiti di sistema non possono essere modificati.
Il servizio gestito Dataflow ha le seguenti quote e limiti:
- Ogni progetto Google Cloud Platform può effettuare fino a 3.000.000 di richieste al minuto.
- Ogni job Dataflow può utilizzare un massimo di 2000 istanze di Compute Engine. Senza specificare una zona worker, ogni job di streaming che utilizza Streaming Engine o ogni job batch che utilizza Dataflow basato su servizi Shuffle può utilizzare un massimo di 4000 istanze di Compute Engine.
- Per impostazione predefinita, ogni progetto Google Cloud Platform può eseguire al massimo 25 job Dataflow simultanei.
- Ogni worker Dataflow ha un limite massimo di log che può generare in un intervallo di tempo. Per il limite esatto, consulta la documentazione relativa alla registrazione.
- Se attivi le quote a livello di organizzazione, ogni organizzazione può eseguire al massimo 125 job Dataflow simultanei per impostazione predefinita.
- Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
- Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
- Ogni utente può effettuare fino a 60 richieste di modelli di job al minuto.
- Ogni utente può effettuare fino a 60 richieste di aggiornamento del job al minuto.
- Ogni progetto Google Cloud Platform riceve i seguenti slot shuffle in ogni regione:
- asia-east1: 48 slot
- asia-northeast1: 24 slot
- asia-northeast3: 32 slot
- asia-south1: 64 slot
- asia-southeast1: 64 slot
- australia-southeast1: 24 slot
- europe-west1: 640 slot
- europe-west2: 32 slot
- europe-west3: 40 slot
- europe-west4: 640 slot
- northamerica-northeast1: 512 slot
- us-central1: 640 slot
- us-east1: 640 slot
- us-east4: 64 slot
- us-west1: 384 slot
- us-west2: 24 slot
- us-west3: 24 slot
- altre aree: 16 slot
- I job batch Dataflow verranno annullati dopo 10 giorni.
Quote di Compute Engine
Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.
La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:
- CPU: nelle seguenti regioni, i tipi di macchina predefiniti per Dataflow
sono
n1-standard-1
per la modalità batch,n1-standard-2
per i job che utilizzano Streaming Engine,n1-standard-4
per i job di streaming che non utilizzano Streaming Engine en1-standard-2
per i job che utilizzano la pianificazione flessibile delle risorse (FlexRS). FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard.asia-east1
asia-east2
asia-northeast1
asia-northeast2
asia-northeast3
asia-south1
asia-south2
asia-southeast1
asia-southeast2
australia-southeast1
australia-southeast2
europe-central2
europe-north1
europe-west1
europe-west2
europe-west3
europe-west4
europe-west5
europe-west6
northamerica-northeast1
northamerica-northeast2
southamerica-east1
us-central1
us-central2
us-east1
us-east4
us-west1
us-west2
us-west3
us-west4
Per le altre regioni, i tipi di macchina predefiniti sono
e2-standard-2
per la modalità batch,e2-standard-2
per i job che utilizzano Streaming Engine,e2-standard-4
per i job di streaming che non utilizzano Streaming Engine ee2-standard-2
per i job che utilizzano FlexRS.Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze
n1-standard-4
corrisponde a un conteggio totale di 40 CPU. Per una mappatura dei tipi di macchine in base al conteggio delle CPU, vedi Tipi di macchine di Compute Engine. - Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
- Persistent Disk: Dataflow collega Persistent Disk
a ciascuna istanza.
- Le dimensioni predefinite del disco sono di 250 GB per le pipeline in modalità batch e 400 GB per le pipeline in modalità flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
- Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
- Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
- Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job di streaming. Ogni disco permanente è locale a una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'assegnazione minima delle risorse.
- L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk
si basa sul valore esatto di
--maxNumWorkers
. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
- Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment delle istanze
di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati
che sia disponibile la seguente quota correlata:
- Un singolo gruppo di istanze per job Dataflow
- Un singolo modello di istanza per job Dataflow
- Un singolo gruppo di istanze gestite a livello di regione per job Dataflow
- Se i gruppi di istanze gestite non sono disponibili per un job di streaming per più di 7 giorni, il job viene annullato.
- Se i gruppi di istanze gestite non sono disponibili per un job batch per più di un'ora, il job viene annullato.
Quote aggiuntive
A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.
- Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
- BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.
Trovare e aumentare le quote
Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:
- Nella console Google Cloud , vai ad API e servizi.
Vai su API e servizi - Per controllare l'utilizzo attuale della quota degli slot Shuffle, nella scheda Quote, trova la riga Slot Shuffle nella tabella e, nella colonna Grafico di utilizzo, fai clic su Mostra grafico di utilizzo.
Se vuoi aumentare la quota di job, contatta l'assistenza Google Cloud Platform e aumenteremo il limite a un valore più adatto alle tue esigenze. La quota predefinita è di 25 job Dataflow simultanei per il tuo progetto o 125 job Dataflow simultanei per la tua organizzazione.
Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.
Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.
Il servizio Dataflow utilizza anche vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che è possibile utilizzare in un progetto. Quando utilizzi Dataflow, potresti dover modificare le impostazioni delle quote per questi servizi.
Dataflow Prime
Quote e limiti sono gli stessi per Dataflow e Dataflow Prime. Se hai quote per Dataflow, non hai bisogno di quote aggiuntive per eseguire i job utilizzando Dataflow Prime.
Limiti
Questa sezione descrive i limiti di produzione pratici per Dataflow.
Limite | Importo |
---|---|
Numero massimo di worker per pipeline. | 2000 |
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. | 10 MB |
Dimensione massima per una richiesta di avvio del modello. | 1 MB |
Numero massimo di shard di input aggiuntivi. | 20.000 |
Dimensioni massime per un singolo elemento (tranne nei casi in cui si applicano condizioni più restrittive, ad esempio Streaming Engine). | 2 GB |
Dimensione massima della chiave nelle pipeline batch. | 1,5 MB |
Numero massimo di voci di log in un dato periodo di tempo, per worker. | 15.000 messaggi ogni 30 secondi |
Numero massimo di metriche personalizzate per progetto. | 100 |
Periodo di tempo durante il quale i consigli verranno memorizzati. | 30 giorni |
Limiti di Streaming Engine | Importo |
---|---|
Numero massimo di byte per i messaggi Pub/Sub. | 7 MB |
Dimensioni massime per il valore di un singolo elemento. | 80 MB |
Dimensione massima di una chiave grande. Le chiavi superiori a 64 KB causano una riduzione delle prestazioni. | 2 MB |
Dimensione massima di un input aggiuntivo. | 80 MB |
Lunghezza massima per i tag di stato utilizzati da TagValue e TagBag . |
64 kB |