Introduzione alla governance dei dati in BigQuery
BigQuery dispone di funzionalità di governance integrate che semplificano la modalità di individuazione, gestione, monitoraggio, governance e utilizzo delle risorse di dati e AI.
Amministratori, responsabili dei dati, gestori della governance dei dati e custodi dei dati possono utilizzare le funzionalità di governance in BigQuery per:
- Scopri i dati.
- Organizza i dati.
- Raccogliere ed arricchire i metadati.
- Gestisci la qualità dei dati.
- Assicurati che i dati vengano utilizzati in modo coerente e in conformità alle norme dell'organizzazione.
- Condividere i dati su larga scala e in modo sicuro.
Al centro delle funzionalità di governance di BigQuery c'è il catalogo universale, un inventario centralizzato di tutti gli asset di dati della tua organizzazione. Il Catalogo universale contiene metadati aziendali, tecnici e di runtime per tutti i tuoi dati. Ti aiuta a scoprire relazioni e semantica nei metadati applicando l'intelligenza artificiale e il machine learning.
Il catalogo universale riunisce un catalogo di dati e un metastore di runtime completamente gestito. Il metastore in BigQuery ti consente di utilizzare più motori di elaborazione dei dati per eseguire query su una singola copia di dati con un unico schema, senza duplicare i dati. I motori di elaborazione dei dati che puoi utilizzare includeono BigQuery, Apache Spark, Apache Flink e Apache Hive. I dati possono essere archiviati in posizioni come tabelle dello spazio di archiviazione BigQuery, tabelle BigQuery per Apache Iceberg o tabelle esterne BigLake.
BigQuery supporta un ciclo di vita dei dati end-to-end, dalla scoperta all'utilizzo dei dati. Il Catalogo universale potenzia le funzionalità e le caratteristiche di governance di BigQuery. Le funzionalità di governance sono disponibili anche in Dataplex.
Rilevamento dati
BigQuery rileva i dati dell'organizzazione in Google Cloud, indipendentemente dal fatto che si trovino in BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. BigQuery estrae automaticamente i metadati e li archivia nel catalogo universale. Ad esempio, puoi utilizzare BigQuery per estrarre i metadati per i dati strutturati e non strutturati da Cloud Storage e creare automaticamente tabelle BigLake pronte per le query su larga scala. In questo modo, puoi eseguire analisi con un motore open source senza duplicare i dati.
Puoi anche estrarre e catalogare i metadati da origini dati di terze parti utilizzando i connettori personalizzati.
BigQuery offre le seguenti funzionalità di rilevamento dei dati:
- Cerca. Cerca risorse di dati e IA in più progetti utilizzando BigQuery nella console Google Cloud. BigQuery supporta la ricerca semantica per la scoperta dei dati, consentendoti di eseguire ricerche con query in linguaggio naturale.
- Rilevamento automatico dei dati di Cloud Storage. Cerca i dati nei bucket Cloud Storage per estrarre e poi catalogare i metadati. Il rilevamento automatico crea tabelle sia per i dati strutturati che per quelli non strutturati.
- Importazione dei metadati. Importa metadati su larga scala da sistemi di terze parti nel catalogo universale. Puoi creare connettori personalizzati per estrarre i dati dalle origini dati, quindi eseguire pipeline di connettività gestite che orchestrano il flusso di lavoro di importazione dei metadati.
Cura e gestione dei dati
Per migliorare la rilevabilità e l'usabilità dei dati, gli amministratori e i responsabili dei dati possono utilizzare BigQuery per esaminare, aggiornare e analizzare i metadati. Le funzionalità di cura e gestione dei dati di BigQuery ti aiutano ad assicurarti che i tuoi dati siano accurati, coerenti e in linea con le norme della tua organizzazione.
BigQuery offre le seguenti funzionalità di cura e gestione dei dati:
- Glossario aziendale (Anteprima). Migliora il contesto, la collaborazione e la ricerca definendo la terminologia della tua organizzazione in un glossario. Identifica i responsabili dei dati per i termini e associali ai campi degli asset di dati.
- Approfondimenti sui dati. Gemini utilizza i metadati per generare domande in linguaggio naturale sulla tabella e le query SQL per rispondere. Questi approfondimenti sui dati ti aiutano a individuare pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
- Profiling dei dati. Identifica le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery per comprendere e analizzare i dati in modo più efficace.
- Qualità dei dati. Definisci ed esegui controlli di qualità dei dati nelle tabelle di BigQuery e Cloud Storage e applica controlli dei dati regolari e continui negli ambienti BigQuery.
- Rivaluta. Monitora il modo in cui i dati vengono spostati nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti. BigQuery supporta la tracciabilità dei dati a livello di tabelle e colonne.
Passaggi successivi per la cura e la gestione dei dati
La tabella seguente illustra i passaggi successivi che puoi svolgere per scoprire di più sulle funzionalità di cura e gestione dei dati:
Livello di esperienza | Percorso di apprendimento |
---|---|
Nuovi utenti cloud |
|
Utenti esperti di cloud |
|
Sicurezza e controllo dell'accesso
La gestione dell'accesso ai dati è il processo di definizione, applicazione e monitoraggio delle regole e delle norme che regolano chi ha accesso ai dati. La gestione dell'accesso garantisce che i dati siano accessibili solo a chi è autorizzato.
BigQuery offre le seguenti funzionalità di sicurezza e controllo dell'accesso:
- Identity and Access Management (IAM). IAM ti consente di controllare chi ha accesso alle tue risorse BigQuery, ad esempio progetti, set di dati, tabelle e visualizzazioni. Puoi concedere ruoli IAM a utenti, gruppi e account di servizio. Questi ruoli definiscono cosa possono fare con le tue risorse.
- Controlli di accesso a livello di colonna e controlli di accesso a livello di riga. I controlli di accesso a livello di colonna e riga ti consentono di limitare l'accesso a colonne e righe specifiche di una tabella in base ad attributi utente o valori di dati. Questo controllo ti consente di implementare un accesso granulare per contribuire a proteggere i dati sensibili da accessi non autorizzati.
- Gestione del trasferimento dei dati. Controlli di servizio VPC ti consente di creare perimetri intorno alle risorse Google Cloud e di controllarne l'accesso in base ai criteri della tua organizzazione.
- Log di controllo. Gli audit log forniscono un record dettagliato dell'attività utente e degli eventi di sistema nella tua organizzazione. Questi log ti aiutano a applicare le norme di governance dei dati e a identificare potenziali rischi di sicurezza.
- Masking dei dati. La mascheratura dei dati consente di oscurare i dati sensibili in una tabella, continuando però a consentire agli utenti autorizzati di accedere ai dati circostanti. Il mascheramento dei dati può anche oscurare i dati che corrispondono a pattern di dati sensibili, proteggendoli dalla divulgazione accidentale.
- Crittografia. BigQuery cripta automaticamente tutti i dati inattivi e in transito, consentendoti al contempo di personalizzare le impostazioni di crittografia in base ai tuoi requisiti specifici.
Passaggi successivi per la sicurezza e il controllo dell'accesso
La seguente tabella illustra i passaggi successivi che puoi svolgere per scoprire di più sulle funzionalità di controllo dell'accesso:
Livello di esperienza | Percorso di apprendimento |
---|---|
Nuovi utenti cloud |
|
Utenti esperti di cloud |
|
Dati e approfondimenti condivisi
BigQuery ti consente di condividere dati e approfondimenti su larga scala all'interno e tra i confini dell'organizzazione. Ha un solido framework per la sicurezza e la privacy tramite una piattaforma di scambio dati integrata. Con la condivisione BigQuery, puoi scoprire, accedere e utilizzare una libreria di dati selezionata da un'ampia gamma di fornitori di dati.
BigQuery offre le seguenti funzionalità di condivisione:
- Condividi più dei dati. Puoi condividere una vasta gamma di asset di dati e AI, come set di dati, tabelle, visualizzazioni, stream in tempo reale di BigQuery con argomenti Pub/Sub, procedure archiviate SQL e modelli BigQuery ML.
- Accedi ai set di dati di Google. Migliora le tue iniziative di analisi e ML con i set di dati di Google provenienti da Tendenze di ricerca, modelli DeepMind WeatherNext, piattaforma Google Maps, Google Earth Engine e altro ancora.
- Integrare i principi di governance dei dati. I proprietari dei dati mantengono il controllo sui propri dati e hanno la possibilità di definire e configurare regole o criteri per limitare l'accesso e l'utilizzo.
- Condivisione in tempo reale dei dati con zero copie. I dati vengono condivisi in situ senza bisogno di integrazione, spostamento o replica, garantendo che l'analisi si basi sulle informazioni più recenti. I set di dati collegati creati sono un puntatore in tempo reale all'asset condiviso.
- Migliora la security posture. Puoi utilizzare i controlli di accesso per ridurre l'accesso per overprovisioning, incluso il supporto integrato di Controlli di servizio VPC.
- Aumenta la visibilità con le metriche sull'utilizzo del fornitore. I publisher di dati possono visualizzare e monitorare l'utilizzo delle risorse condivise, ad esempio il numero di job eseguiti, i byte totali sottoposti a scansione e gli abbonati per ogni organizzazione.
- Collabora a dati sensibili con le camere di pulizia dei dati. Le data clean room forniscono un ambiente con una maggiore sicurezza in cui più parti possono condividere, unire e analizzare i propri asset di dati senza spostare o rivelare i dati sottostanti.
- Basato su BigQuery. Puoi sfruttare la scalabilità e le enormi capacità di elaborazione di BigQuery, consentendo collaborazioni su larga scala.
Passaggi successivi per la condivisione
La seguente tabella illustra i passaggi successivi che puoi svolgere per scoprire di più sulle funzionalità di condivisione:
Livello di esperienza | Percorso di apprendimento |
---|---|
Nuovi utenti cloud |
|
Utenti esperti di cloud |
|
Passaggi successivi
- Scopri di più sull'autenticazione su Google.
- Scopri di più sull'eliminazione dei dati su Google Cloud.
- Scopri di più sulle best practice per l'IAM.
- Scopri la gerarchia delle risorse su Google Cloud.
- Scopri di più su IAM su Google Cloud.