Organizzazione delle risorse BigQuery

Come altri servizi Google Cloud, le risorse BigQuery sono organizzate in una gerarchia. Puoi utilizzare questa gerarchia per gestire aspetti dei carichi di lavoro BigQuery, come autorizzazioni, quote, prenotazioni di slot e fatturazione.

Gerarchia delle risorse

BigQuery eredita la gerarchia delle risorse Google Cloud e aggiunge un ulteriore meccanismo di raggruppamento chiamato set di dati, specifici per BigQuery. Questa sezione descrive gli elementi di questa gerarchia.

Set di dati

I set di dati sono contenitori logici utilizzati per organizzare e controllare l'accesso alle tue risorse BigQuery. I set di dati sono simili agli schemi in altri sistemi di database.

La maggior parte delle risorse BigQuery che crei, tra cui tabelle, viste, funzioni e procedure, viene creata all'interno di un set di dati. Le connessioni e i job sono eccezioni; sono associati ai progetti anziché ai set di dati.

Un set di dati ha una località. Quando crei una tabella, i dati della tabella vengono archiviati nella posizione del set di dati. Prima di creare le tabelle per i dati di produzione, valuta i requisiti relativi alla località. Non puoi modificare la posizione di un set di dati dopo averlo creato.

Progetti

Ogni set di dati è associato a un progetto. Per utilizzare Google Cloud, devi creare almeno un progetto. I progetti sono la base per creare, abilitare e utilizzare tutti i servizi Google Cloud. Per ulteriori informazioni, consulta Gerarchia delle risorse. Un progetto può contenere più set di dati e nello stesso progetto possono essere presenti set di dati con posizioni diverse.

Quando esegui operazioni sui dati BigQuery, ad esempio eseguire una query o importare dati in una tabella, crei un job. Un job è sempre associato a un progetto, ma non deve essere eseguito nello stesso progetto che contiene i dati. In effetti, un job potrebbe fare riferimento a tabelle di set di dati in più progetti. Un job di query, caricamento o esportazione viene sempre eseguito nella stessa posizione delle tabelle a cui fa riferimento.

Ogni progetto ha un account di fatturazione Cloud associato. I costi maturati per un progetto vengono fatturati a quell'account. Se utilizzi i prezzi on demand, le query vengono fatturate al progetto che le esegue. Se utilizzi prezzi basati sulla capacità, le prenotazioni degli slot vengono fatturate al progetto di amministrazione utilizzato per acquistare gli slot. Lo spazio di archiviazione viene addebitato al progetto in cui si trova il set di dati.

Cartelle

Le cartelle sono un ulteriore meccanismo di raggruppamento dei progetti. I progetti e le cartelle all'interno di una cartella ereditano automaticamente i criteri di accesso della cartella principale. Le cartelle possono essere utilizzate per modellare diverse persone giuridiche, dipartimenti e team all'interno di un'azienda.

Organizzazioni

La risorsa organizzazione rappresenta un'organizzazione (ad esempio un'azienda) ed è il nodo radice della gerarchia delle risorse Google Cloud.

Non è necessaria una risorsa organizzazione per iniziare a utilizzare BigQuery, ma ti consigliamo di crearne una. L'utilizzo di una risorsa dell'organizzazione consente agli amministratori di controllare centralmente le risorse BigQuery, anziché ai singoli utenti di controllare le risorse che creano.

Il seguente diagramma mostra un esempio della gerarchia delle risorse. In questo esempio, l'organizzazione ha un progetto all'interno di una cartella. Il progetto è associato a un account di fatturazione e contiene tre set di dati.

Gerarchia delle risorse

Considerazioni

Quando scegli come organizzare le risorse BigQuery, prendi in considerazione i seguenti punti:

  • Quote. Molte quote di BigQuery vengono applicate a livello di progetto. Alcuni si applicano a livello di set di dati. Le quote a livello di progetto che coinvolgono risorse di calcolo, come query e job di caricamento, vengono conteggiate in base al progetto che crea il job, anziché al progetto di archiviazione.
  • Fatturazione. Se vuoi che reparti diversi della tua organizzazione utilizzino account di fatturazione Cloud diversi, crea progetti diversi per ogni team. Crea gli account di fatturazione Cloud a livello di organizzazione e associavi i progetti.
  • Prenotazioni di slot. Gli slot riservati hanno come ambito la risorsa Organization. Dopo aver acquistato la capacità di slot riservati, puoi assegnare un pool di slot a qualsiasi progetto o cartella all'interno dell'organizzazione oppure assegnare gli slot all'intera risorsa Organizzazione. I progetti ereditano le prenotazioni degli slot dalla cartella o dall'organizzazione principale. Gli slot riservati sono associati a un progetto di amministrazione, che viene utilizzato per gestirli. Per ulteriori informazioni, consulta Gestione dei carichi di lavoro utilizzando le prenotazioni.
  • Autorizzazioni. Valuta in che modo la gerarchia delle autorizzazioni influisce sulle persone della tua organizzazione che devono accedere ai dati. Ad esempio, se vuoi dare a un intero team l'accesso a dati specifici, puoi archiviarli in un singolo progetto per semplificare la gestione dell'accesso.

    Le tabelle e altre entità ereditano le autorizzazioni del set di dati di primo livello. I set di dati ereditano le autorizzazioni dalle entità principali nella gerarchia delle risorse (progetti, cartelle, organizzazioni). Per eseguire un'operazione su una risorsa, un utente deve disporre sia delle autorizzazioni pertinenti per la risorsa sia dell'autorizzazione per creare un job BigQuery. L'autorizzazione per creare un job è associata al progetto utilizzato per il job.

Pattern

Questa sezione presenta due pattern comuni per organizzare le risorse BigQuery.

  • Data lake centrale, data mart di reparto. L'organizzazione crea un progetto di archiviazione unificato per contenere i dati non elaborati. I reparti all'interno dell'organizzazione creano i propri progetti di data mart per l'analisi.

  • Data lake dei reparti, data warehouse centrale. Ogni reparto crea e gestisce il proprio progetto di archiviazione per conservare i dati non elaborati del reparto. L'organizzazione crea quindi un progetto di data warehouse centrale per l'analisi.

Ogni approccio presenta vantaggi e compromessi. Molte organizzazioni combinano elementi di entrambi gli schemi.

Data lake centrale, data mart di reparto

In questo pattern, crei un progetto di archiviazione unificato per contenere i dati non elaborati della tua organizzazione. La pipeline di importazione dati può essere eseguita anche in questo project. Il progetto di archiviazione unificato funge da data lake per la tua organizzazione.

Ogni reparto ha un proprio progetto dedicato, che utilizza per eseguire query sui dati, salvare i risultati delle query e creare visualizzazioni. Questi progetti a livello di reparto fungono da data mart. Sono associati all'account di fatturazione del reparto.

Pattern del data lake centrale

I vantaggi di questa struttura includono:

  • Un team di data engineering centralizzato può gestire la pipeline di importazione in un unico posto.
  • I dati non elaborati sono isolati dai progetti a livello di reparto.
  • Con i prezzi on demand, la fatturazione delle query in esecuzione viene addebitata al dipartimento che esegue la query.
  • Con i prezzi basati sulla capacità, puoi assegnare gli slot a ciascun reparto in base ai suoi requisiti di calcolo previsti.
  • Ogni reparto è isolato dagli altri in termini di quote a livello di progetto.

Quando utilizzi questa struttura, le autorizzazioni più comuni sono:

  • Al team di data engineering centrale vengono concessi i ruoli Editor dati BigQuery e Utente job BigQuery per il progetto di archiviazione. In questo modo possono importare e modificare i dati nel progetto di archiviazione.
  • Agli analisti di reparto viene assegnato il ruolo Visualizzatore dati BigQuery per set di dati specifici nel progetto del data lake centrale. In questo modo possono eseguire query sui dati, ma non aggiornarli o eliminarli.
  • Agli analisti di reparto vengono concessi anche i ruoli Editor dati BigQuery e Utente job per il progetto data mart del loro reparto. In questo modo, possono creare e aggiornare le tabelle nel progetto ed eseguire job di query per trasformare e aggregare i dati per l'utilizzo specifico del reparto.

Per ulteriori informazioni, consulta Ruoli e autorizzazioni di base.

Data lake di reparto, data warehouse centrale

In questo modello, ogni reparto crea e gestisce il proprio progetto di archiviazione, che contiene i dati non elaborati del reparto. Un progetto di data warehouse centrale immagazzina aggregazioni o trasformazioni dei dati non elaborati.

Gli analisti possono eseguire query e leggere i dati aggregati del progetto data warehouse. Il progetto data warehouse fornisce anche un livello di accesso per gli strumenti di business intelligence (BI).

Pattern dei data lake dipartimentali

I vantaggi di questa struttura includono:

  • È più semplice gestire l'accesso ai dati a livello di reparto utilizzando progetti distinti per ogni reparto.
  • Un team di analisi centrale ha un unico progetto per l'esecuzione di job di analisi, che semplifica il monitoraggio delle query.
  • Gli utenti possono accedere ai dati da uno strumento BI centralizzato, che viene mantenuto isolato dai dati non elaborati.
  • È possibile assegnare slot al progetto data warehouse per gestire tutte le query da parte di analisti e strumenti esterni.

Quando utilizzi questa struttura, le autorizzazioni più comuni sono:

  • Ai data engineer vengono assegnati i ruoli Editor dati BigQuery e Utente job BigQuery nel data mart del loro reparto. Questi ruoli consentono loro di importare e trasformare i dati nel data mart.
  • Agli analisti vengono concessi i ruoli Editor dati BigQuery e Utente job BigQuery nel progetto data warehouse. Questi ruoli consentono loro di creare visualizzazioni aggregate nel data warehouse ed eseguire job di query.
  • Agli account di servizio che collegano BigQuery agli strumenti di BI viene concesso il ruolo Visualizzatore dati BigQuery per set di dati specifici, che possono contenere dati non elaborati del data lake o dati trasformati nel progetto del data warehouse.

Per ulteriori informazioni, consulta Ruoli e autorizzazioni di base.

Puoi anche utilizzare funzionalità di sicurezza come le visualizzazioni autorizzate e le funzioni definite dall'utente autorizzate (UDF) per rendere disponibili i dati aggregati a determinati utenti senza concedergli l'autorizzazione per visualizzare i dati non elaborati nei progetti di data mart.

Questa struttura del progetto può comportare molte query simultanee nel progetto del data warehouse. Di conseguenza, potresti raggiungere il limite di query simultanee. Se decidi di adottare questa struttura, ti consigliamo di aumentare il limite di quota per il progetto. Valuta anche la possibilità di utilizzare la fatturazione in base alla capacità, in modo da poter acquistare un pool di slot per eseguire le query.