Introduzione alla condivisione di BigQuery
BigQuery sharing (in precedenza Analytics Hub) è una piattaforma di scambio di dati che consente di condividere dati e approfondimenti su larga scala oltre i confini dell'organizzazione con un solido framework di sicurezza e privacy. La condivisione ti consente di scoprire e accedere a una raccolta di dati selezionati da vari fornitori di dati. Questa biblioteca di dati include anche i set di dati forniti da Google.
Ad esempio, puoi utilizzare la condivisione per migliorare le tue iniziative di analisi e ML con set di dati di terze parti e di Google.
I ruoli IAM (Identity and Access Management) di Analytics Hub ti consentono di eseguire le seguenti attività di condivisione:
Il ruolo Editore di Analytics Hub ti consente di monetizzare i dati condividendoli in tempo reale con la tua rete di partner o all'interno della tua organizzazione. Le elenchi ti consentono di condividere i dati senza replicarli. Puoi creare un catalogo di origini dati pronte per l'analisi con autorizzazioni granulari che ti consentono di fornire i dati ai segmenti di pubblico giusti. Puoi anche gestire gli abbonamenti e visualizzare le metriche di utilizzo per le tue schede.
Il ruolo Abbonato di Analytics Hub ti consente di trovare i dati che stai cercando, combinare i dati condivisi con quelli esistenti e utilizzare le funzionalità integrate di BigQuery. Quando ti abboni a una scheda, nel tuo progetto viene creato un set di dati collegato o una sottoscrizione Pub/Sub collegata. Puoi gestire le tue iscrizioni utilizzando la risorsa Subscription, che memorizza le informazioni pertinenti sull'abbonato e rappresenta il collegamento tra editore e abbonato.
Il ruolo Visualizzatore di Analytics Hub ti consente di sfogliare le risorse a cui hai accesso in Condivisione e di richiedere al publisher di accedere ai dati condivisi.
Il ruolo Amministratore di Analytics Hub ti consente di creare scambi di dati che consentono la condivisione dei dati e poi di concedere le autorizzazioni ai publisher e ai sottoscrittori di dati per accedere a questi scambi.
Per ulteriori informazioni, consulta Configurare i ruoli di Analytics Hub.
Architettura
La condivisione si basa su un modello di pubblicazione e sottoscrizione delleGoogle Cloud risorse di dati, che consente la condivisione senza copia in situ. La condivisione supporta le seguenti Google Cloud risorse:
- Set di dati di BigQuery
- Argomenti Pub/Sub
Flusso di lavoro del publisher
Il seguente diagramma descrive come un publisher condivide gli asset:
Le sezioni seguenti descrivono le funzionalità di questo flusso di lavoro.
Risorse condivise
Le risorse condivise sono l'unità di condivisione da parte di un publisher nella condivisione di BigQuery.
Set di dati condivisi
Un set di dati condiviso è un set di dati BigQuery che costituisce l'unità di condivisione dei dati nella condivisione di BigQuery. La separazione di calcolo e archiviazione nell'architettura di BigQuery consente ai publisher di dati di condividere set di dati con un numero illimitato di iscritti, senza dover creare più copie dei dati. In qualità di publisher, crei o utilizzi un set di dati BigQuery esistente nel tuo progetto con i seguenti oggetti supportati che vuoi inviare ai tuoi abbonati:
- Visualizzazioni autorizzate
- Set di dati autorizzati
- Modelli BigQuery ML
- Tabelle esterne
- Viste materializzate
-
Non tutte le routine sono supportate nei set di dati condivisi. Per ulteriori informazioni, vedi Limitazioni.
I set di dati condivisi supportano la sicurezza a livello di colonna e la sicurezza a livello di riga.
Tieni presente le seguenti limitazioni relative a Controlli di servizio VPC e alla condivisione:
Sconsigliamo ai publisher di pubblicare dati condivisi nei progetti all'interno del perimetro di Controlli di servizio VPC. Se i set di dati condivisi in un progetto rientrano in un perimetro di Controlli di servizio VPC, sono necessarie regole di ingresso e uscita appropriate sia per il progetto della piattaforma di scambio pubblicitario (elenchi ospitati) sia per tutti i progetti dell'abbonato per abbonarsi correttamente agli elenchi del publisher.
Sconsigliamo agli amministratori di piattaforme di scambio pubblicitario di inserire il proprio progetto in un perimetro Controlli di servizio VPC, in quanto potrebbe interrompere le relative procedure di pubblicazione, richiedendo regole di ingresso e di uscita per il progetto del publisher e per tutti i progetti degli abbonati per abbonarsi correttamente alle loro schede.
Argomenti condivisi (anteprima)
Un argomento condiviso è un argomento Pub/Sub che rappresenta l'unità di condivisione dei dati in streaming in BigQuery. In qualità di publisher, crei o utilizzi un argomento Pub/Sub esistente nel tuo progetto e lo distribuisci ai tuoi abbonati.
Scambi di dati
Uno scambio di dati è un contenitore che consente la condivisione self-service dei dati. Contiene schede che fanno riferimento a risorse condivise. I publisher e gli amministratori possono concedere l'accesso agli abbonati a livello di piattaforma di scambio pubblicitario e di scheda. Questo metodo consente di evitare di concedere esplicitamente l'accesso alle risorse condivise sottostanti. Un abbonato può sfogliare i Data Exchange, scoprire i dati a cui può accedere e abbonarsi alle risorse condivise. Quando crei un'esportazione di dati, puoi assegnare un indirizzo email di contatto principale. L'indirizzo email del contatto principale consente agli utenti di contattare il proprietario di uno scambio di dati in caso di domande o dubbi in merito. Uno scambio di dati può essere dei seguenti tipi:
- Scambio di dati privati. Per impostazione predefinita, un data exchange è privato e solo gli utenti o i gruppi che hanno accesso a questo data exchange possono visualizzare o iscriversi alle sue schede.
- Scambio di dati pubblici. Per impostazione predefinita, un data exchange è privato e solo gli utenti o i gruppi che hanno accesso a questo data exchange possono visualizzare o iscriversi alle sue schede. Tuttavia, puoi scegliere di rendere pubblico uno scambio di dati. Le schede negli scambi di dati pubblici possono essere scoperte e sottoscritte dagli utentiGoogle Cloud (
allAuthenticatedUsers
). Per saperne di più sugli scambi di dati pubblici, consulta Rendere pubblico uno scambio di dati.
Il ruolo Amministratore di Analytics Hub ti consente di creare più scambi di dati e di gestire altri utenti che eseguono attività di condivisione.
Schede
Una scheda è un riferimento a una risorsa condivisa che un publisher elenca in un scambio di dati. In qualità di publisher, puoi creare una scheda e specificare la descrizione della risorsa, query di esempio da eseguire o dati di messaggio di esempio, link a documentazione pertinente e eventuali informazioni aggiuntive che possono aiutare gli abbonati a utilizzare la risorsa condivisa. Quando crei una scheda, puoi assegnare un indirizzo email di contatto principale, il nome e il contatto del fornitore e il nome e il contatto dell'editore. L'indirizzo email del contatto principale consente agli utenti di contattare il proprietario di una scheda in caso di domande o dubbi sull'interscambio di dati. Il nome e i dati di contatto del fornitore sono le informazioni dell'agenzia che ha fornito originariamente i dati per la scheda. Queste informazioni sono facoltative. Il nome e i dati di contatto del publisher sono l'agenzia che ha pubblicato i dati per l'utilizzo nella condivisione di BigQuery. Queste informazioni sono facoltative. Per saperne di più, consulta Gestire le schede.
Una scheda può essere di due tipi, in base al criterio IAM (Identity and Access Management) impostato per la scheda e al tipo di piattaforma di scambio dati che la contiene:
- Scheda pubblica. È condivisa con tutti
Google Cloud utenti (
allAuthenticatedUsers
). Le schede in uno scambio di dati pubblici sono schede pubbliche. Queste schede possono essere riferimenti a una risorsa pubblica gratuita o a una risorsa commerciale. Se la scheda riguarda una risorsa commerciale, gli abbonati possono richiedere accesso alla scheda direttamente al fornitore di dati oppure sfogliare e acquistare schede commerciali integrate in Google Cloud Marketplace. - Scheda privata. Viene condiviso direttamente con persone o gruppi. Ad esempio, una scheda privata può fare riferimento al set di dati delle metriche di marketing che condividi con altri team interni della tua organizzazione.
Flusso di lavoro degli abbonati
Il seguente diagramma descrive l'interazione degli abbonati con le risorse condivise:
Le sezioni seguenti descrivono le funzionalità del flusso di lavoro degli abbonati.
Risorse collegate
Le risorse collegate vengono create quando un utente si iscrive a un elenco di condivisione, collegando l'utente alla risorsa condivisa sottostante.
Set di dati collegati
Un set di dati collegato è un set di dati BigQuery di sola lettura che funge da indice o riferimento a un set di dati condiviso. L'abbonamento a una scheda crea un set di dati collegato nel progetto e non una copia del set di dati, pertanto gli abbonati possono leggere i dati, ma non possono aggiungere o aggiornare gli oggetti al suo interno. Quando esegui query su oggetti come tabelle e viste tramite un set di dati collegato, vengono restituiti i dati del set di dati condiviso. Per ulteriori informazioni sui set di dati collegati, consulta Visualizzare e iscriversi alle schede.
I set di dati collegati sono autorizzati ad accedere alle tabelle e alle viste di un set di dati condiviso. Gli abbonati con set di dati collegati accedono alle tabelle e alle viste di un set di dati condiviso senza alcuna autorizzazione aggiuntiva di Identity and Access Management.
I set di dati collegati supportano i seguenti oggetti:
Abbonamenti Pub/Sub collegati (anteprima)
La sottoscrizione a una scheda con un argomento condiviso crea una sottoscrizione Pub/Sub collegata nel progetto del sottoscrittore. Non vengono create copie dei dati degli argomenti o dei messaggi condivisi. I sottoscrittori della sottoscrizione Pub/Sub collegata possono accedere ai messaggi pubblicati nell'argomento condiviso. Gli iscritti accedono ai dati dei messaggi di un argomento condiviso senza alcuna autorizzazione aggiuntiva di Identity and Access Management. I publisher possono gestire gli abbonamenti sia direttamente in Pub/Sub sia tramite la gestione degli abbonamenti condivisi. Per ulteriori informazioni sugli abbonamenti Pub/Sub collegati, consulta Condivisione di stream con Pub/Sub.
Opzioni di traffico in uscita dei dati (solo set di dati condivisi BigQuery)
Le opzioni per il traffico in uscita dai dati consentono ai publisher di limitare l'esportazione dei dati dai set di dati collegati di BigQuery da parte degli abbonati.
I publisher possono attivare la limitazione dell'esportazione dei dati su una scheda, sui risultati di una query o su entrambi. Quando l'esportazione dei dati è limitata, vengono applicate le seguenti limitazioni:
Le API di copia, clonazione, esportazione e snapshot sono disattivate.
Le opzioni di copia, clonazione, esportazione e snapshot nella Google Cloud console sono disattivate.
La connessione del set di dati con limitazioni all'esplora tabelle è disabilitata.
BigQuery Data Transfer Service è disattivato nel set di dati con limitazioni.
Gli istruzioni
CREATE TABLE AS SELECT
e la scrittura in una tabella di destinazione sono disattivate.Le istruzione
CREATE VIEW AS SELECT
e la scrittura in una visualizzazione di destinazione sono disattivate.
Quando crei una scheda, puoi impostare le opzioni di esportazione dei dati appropriate.
Limitazioni
La condivisione presenta le seguenti limitazioni:
Un set di dati condiviso può avere un massimo di 1000 set di dati collegati.
Un argomento condiviso può avere massimo 10.000 iscrizioni Pub/Sub. Questo limite include le sottoscrizioni Pub/Sub collegate e le sottoscrizioni Pub/Sub create al di fuori della Condivisione (ad esempio direttamente da Pub/Sub).
Un set di dati con risorse non supportate non può essere selezionato come set di dati condiviso quando crei una scheda. Per ulteriori informazioni sugli oggetti BigQuery supportati dalla condivisione, consulta Set di dati condivisi in questo documento.
Non puoi impostare ruoli IAM o norme IAM su singole tabelle all'interno di un set di dati collegato. Applicali invece a livello di set di dati collegato.
Non puoi associare tag IAM alle tabelle all'interno di un set di dati collegato. Applicale invece a livello di set di dati collegato.
I set di dati collegati creati prima del 25 luglio 2023 non vengono sottoposti a backfill dalla risorsa di abbonamento. Solo gli abbonamenti creati dopo il 25 luglio 2023 funzionano con i metodi dell'API.
Se sei un publisher, si applicano i seguenti limiti di interoperabilità di BigQuery:
Per poter eseguire query sulle viste all'interno dei set di dati collegati, gli abbonati devono disporre di autorizzazioni esplicite per leggere il set di dati di origine. Per concedere l'accesso alle visualizzazioni, come best practice i publisher dovrebbero creare visualizzazioni autorizzate. Le viste autorizzate possono concedere agli abbonati l'accesso ai dati della vista senza concedere loro l'accesso ai dati di origine sottostanti.
Il piano di query mostra la query della vista condivisa e la query di routine, inclusi gli ID progetto e altri set di dati coinvolti nelle viste autorizzate. Non includere mai elementi come le chiavi di crittografia che ritieni sensibili nella query della routine o della visualizzazione condivisa.
I set di dati condivisi vengono indicizzati in Data Catalog (disponibile solo per i clienti in fase di transizione) e nel Catalogo universale Dataplex. Gli aggiornamenti di un set di dati condiviso, ad esempio l'aggiunta di tabelle o viste, vengono messi a disposizione degli abbonati senza alcun ritardo. Tuttavia, in alcuni scenari, ad esempio quando in un set di dati condiviso sono presenti più di cento abbonati o tabelle, l'indicizzazione degli aggiornamenti in questi servizi potrebbe richiedere fino a 18 ore. A causa del ritardo nell'indicizzazione, gli abbonati non possono cercare immediatamente queste risorse aggiornate nella Google Cloud console.
Gli argomenti condivisi sono indicizzati in Data Catalog (disponibile in versione precedente) e in Dataplex Universal Catalog, ma non puoi filtrare in base al tipo di risorsa.
Se hai configurato criteri di sicurezza a livello di riga o di mascheramento dei dati sulle tabelle elencate, gli abbonati devono essere clienti Enterprise o Enterprise Plus per eseguire il job di query sul set di dati collegato. Per informazioni sulle versioni, consulta Introduzione alle versioni di BigQuery.
Se hai un abbonamento, si applicano le seguenti limitazioni di interoperabilità di BigQuery:
Le viste materializzate che fanno riferimento alle tabelle nel set di dati collegato non sono supportate.
Non è supportata l'acquisizione di snapshot delle tabelle dei set di dati collegati.
Le query con set di dati collegati e istruzioni
JOIN
di dimensioni superiori a 1 TB (spazio di archiviazione fisico) potrebbero non riuscire. Puoi contattare l'assistenza per risolvere il problema.Non puoi utilizzare i qualificatori di regione con le viste
INFORMATION_SCHEMA
per visualizzare i metadati del set di dati collegato.Quando esegui query per le routine in un set di dati collegato, puoi eseguire query solo per le funzioni definite dall'utente (sia UDF SQL che JavaScript) e per i tipi di routine Funzioni tabella. Se esegui una query per un tipo di routine non supportato, viene visualizzato il messaggio di errore:
Querying routine type type is not yet supported on linked dataset dataset.
Per le metriche relative all'utilizzo si applicano le seguenti limitazioni:
Non puoi ottenere le metriche sull'utilizzo per le schede sottoscritte prima del 20 luglio 2023.
Le metriche relative all'utilizzo della tabella esterna per i campi
num_rows_processed
etotal_bytes_processed
potrebbero contenere dati imprecisi.Le metriche di utilizzo per il consumo sono supportate solo per l'utilizzo tramite job BigQuery. Il consumo tramite le seguenti risorse non è supportato:
Le metriche di utilizzo per le visualizzazioni vengono compilate solo per le query successive al 22 aprile 2024.
Le metriche di utilizzo non vengono acquisite per le sottoscrizioni Pub/Sub collegate in BigQuery (puoi continuare a visualizzare l'utilizzo direttamente in Pub/Sub).
Quando ti abboni ai dati di Salesforce Data Cloud, si applicano le seguenti limitazioni:
- I dati di Data Cloud vengono condivisi come visualizzazioni. In qualità di abbonato, non puoi accedere alle tabelle sottostanti a cui fanno riferimento le viste.
Aree geografiche supportate
La condivisione di BigQuery è supportata nelle seguenti regioni e nelle regioni con più regioni.
Regioni
La tabella seguente elenca le regioni delle Americhe in cui è disponibile la condivisione.Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
|
Iowa | us-central1 |
|
Las Vegas | us-west4 |
|
Los Angeles | us-west2 |
|
Messico | northamerica-south1 |
|
Montréal | northamerica-northeast1 |
|
Virginia del Nord | us-east4 |
|
Oklahoma | us-central2 |
|
Oregon | us-west1 |
|
Salt Lake City | us-west3 |
|
San Paolo | southamerica-east1 |
|
Santiago | southamerica-west1 |
|
Carolina del Sud | us-east1 |
|
Toronto | northamerica-northeast2 |
|
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Delhi | asia-south2 |
|
Hong Kong | asia-east2 |
|
Giacarta | asia-southeast2 |
|
Melbourne | australia-southeast2 |
|
Mumbai | asia-south1 |
|
Osaka | asia-northeast2 |
|
Seul | asia-northeast3 |
|
Singapore | asia-southeast1 |
|
Sydney | australia-southeast1 |
|
Taiwan | asia-east1 |
|
Tokyo | asia-northeast1 |
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Belgio | europe-west1 |
|
Berlino | europe-west10 |
|
Finlandia | europe-north1 |
|
Francoforte | europe-west3 |
|
Londra | europe-west2 |
|
Madrid | europe-southwest1 |
|
Milano | europe-west8 |
|
Paesi Bassi | europe-west4 |
|
Parigi | europe-west9 |
|
Torino | europe-west12 |
|
Varsavia | europe-central2 |
|
Zurigo | europe-west6 |
|
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Dammam | me-central2 |
|
Doha | me-central1 |
|
Tel Aviv | me-west1 |
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Johannesburg | africa-south1 |
Più regioni
La tabella seguente elenca le regioni in cui è disponibile la condivisione.Descrizione multiregione | Nome multiregione |
---|---|
Data center all'interno degli stati membri dell'Unione Europea1 | EU |
Data center negli Stati Uniti | US |
1 I dati che si trovano nella regione multipla EU
non vengono memorizzati nei data center europe-west2
(Londra) o europe-west6
(Zurigo).
Regioni omnicanale
La tabella seguente elenca i modelli Omni in cui è disponibile la condivisione.Descrizione della regione omnicanale | Nome della regione omnicanale | |
---|---|---|
AWS | ||
AWS - Stati Uniti, costa orientale (Virginia del Nord) | aws-us-east-1 |
|
AWS - US West (Oregon) | aws-us-west-2 |
|
AWS - Asia Pacifico (Seul) | aws-ap-northeast-2 |
|
AWS - Asia Pacifico (Sydney) | aws-ap-southeast-2 |
|
AWS - Europa (Irlanda) | aws-eu-west-1 |
|
AWS - Europa (Francoforte) | aws-eu-central-1 |
|
Azure | ||
Azure - Stati Uniti orientali 2 | azure-eastus2 |
Caso d'uso di esempio
Questa sezione mostra un esempio di come utilizzare la condivisione in BigQuery.
Supponiamo che tu sia un rivenditore e che la tua organizzazione disponga di dati di previsione della domanda in tempo reale in un Google Cloud progetto denominato Forecasting. Vuoi condividere questi dati di previsione della domanda con centinaia di fornitori nel tuo sistema di catena di approvvigionamento. Ecco come puoi condividere i tuoi dati con i fornitori tramite la condivisione di BigQuery:
Amministratori
In qualità di proprietario del progetto Forecasting, devi prima attivare l'API e poi assegnare il ruolo Amministratore di Analytics Hub a un utente che amministra lo scambio di dati nel progetto. Gli utenti con il ruolo di amministratore di Analytics Hub sono chiamati amministratori di Analytics Hub.
Questo amministratore può eseguire le seguenti attività:
Crea, aggiorna, elimina e condividi lo scambio di dati nel progetto Forecasting della tua organizzazione.
Gestisci altri amministratori con il ruolo Amministratore di Analytics Hub.
Gestisci i publisher concedendo il ruolo Publisher di Analytics Hub ai dipendenti della tua organizzazione. Se vuoi che alcuni dipendenti possano solo aggiornare, eliminare e condividere le schede, ma non crearle, puoi assegnare loro il ruolo Amministratore delle schede di Analytics Hub.
Gestisci gli abbonati concedendo il ruolo Abbonato di Analytics Hub a un gruppo Google composto da tutti i fornitori. Se vuoi che alcuni fornitori abbiano solo accesso in visualizzazione alle piattaforme di scambio pubblicitario e alle schede disponibili, puoi concedere loro il ruolo Visualizzatore di Analytics Hub. Questi fornitori non sono in grado di iscriversi alle schede.
Per saperne di più, consulta Gestire gli scambi di dati.
Editori
I publisher creano le seguenti schede per i propri set di dati nel progetto Forecasting o in un altro progetto:
- Elenco A: set di dati di previsione della domanda 1
- Elenco B: set di dati di previsione della domanda 2
- Elenco C: set di dati di previsione della domanda 3
In qualità di fornitore di dati, puoi monitorare le metriche di utilizzo per il tuo set di dati condiviso. Le metriche relative all'utilizzo includono i seguenti dettagli:
- Job eseguiti sul set di dati condiviso.
- I dettagli sul consumo del tuo set di dati condiviso da progetti e organizzazioni degli abbonati.
- Il numero di righe e di byte elaborati dal job.
Per saperne di più, consulta Gestire le schede.
Iscritti
Gli abbonati possono sfogliare le schede a cui hanno accesso nei data exchange. Possono anche iscriversi a queste schede e aggiungere questi set di dati ai propri progetti creando un set di dati collegato. I fornitori possono quindi eseguire query su questi set di dati collegati e recuperare i risultati in tempo reale.
Per ulteriori informazioni, vedi Visualizzare e iscriversi alle schede.
Prezzi
Non sono previsti costi aggiuntivi per la gestione delle schede o degli scambi di dati.
Per i set di dati BigQuery, gli editori vengono addebitati per l'archiviazione dei dati, mentre gli abbonati pagano le query eseguite sui dati condivisi in base a un modello di determinazione dei prezzi on demand o in base alla capacità. Per informazioni sui prezzi, consulta la sezione Prezzi di BigQuery.
Per Pub/Sub, agli editori degli argomenti viene addebitato il numero totale di byte scritti (throughput di pubblicazione) nell'argomento condiviso e nell'uscita di rete (se applicabile). Agli abbonati viene addebitato il numero totale di byte letti (throughput dell'abbonamento) dall'abbonamento collegato e dal traffico in uscita della rete (se applicabile). Per ulteriori dettagli, consulta la pagina Prezzi di Pub/Sub.
Quote
Per informazioni sulle quote di condivisione di BigQuery, consulta Quote e limiti.
Conformità
La condivisione, nell'ambito di BigQuery, è conforme ai seguenti programmi di conformità:
Controlli di servizio VPC
Puoi impostare le regole in entrata e in uscita necessarie per consentire a publisher e abbonati di accedere ai dati dei progetti che hanno perimetri Controlli di servizio VPC. Per saperne di più, consulta Condividere le regole dei Controlli di servizio VPC.
Passaggi successivi
- Scopri come visualizzare e iscriverti alle schede.
- Scopri come concedere i ruoli di Analytics Hub.