Collega i tag a una tabella BigQuery utilizzando Data Catalog
Questa guida rapida ti aiuta a completare le seguenti attività:
Creare un set di dati e una tabella BigQuery.
Crea un modello di tag con uno schema che definisce cinque campi di tag di tipi distinti. Si tratta di
string
,double
,boolean
,enumerated
erichtext
.Cerca la voce di Data Catalog per la tua tabella.
Nella console Google Cloud, crea metadati aziendali per la tua voce che includono una panoramica, un responsabile dei dati e un tag.
Data Catalog ti consente di cercare e taggare voci come le tabelle BigQuery con metadati. Alcuni esempi di metadati che puoi utilizzare per il tagging includono tag pubblici e privati, responsabili dei dati e panoramica del testo avanzato.
Prima di iniziare
- Configurare il progetto.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Data Catalog and BigQuery APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Aggiungere una voce di dati pubblici al progetto
Le voci di Data Catalog includono risorse di dati come un set di dati BigQuery o un argomento Pub/Sub.
Aggiungi un set di dati pubblico al tuo progetto.
Nella console Google Cloud, vai alla pagina BigQuery.
Nella sezione Explorer, fai clic su Aggiungi dati e seleziona Set di dati pubblici dall'elenco.
Nel riquadro Marketplace, cerca
New York taxi trips
e fai clic sul risultato di ricerca pertinente.Fai clic su Visualizza set di dati.
Creare un set di dati e una tabella
Crea un set di dati.
Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Fai clic sull'icona
Azioni e poi su Crea set di dati.Nella pagina Crea set di dati, compila i seguenti dettagli:
- In ID set di dati, inserisci
demo_dataset
. - Per Località dei dati, seleziona
us (multiple regions in United States)
. - Abilita la scadenza della tabella e specifica il numero di giorni.
- In Crittografia, lascia selezionata l'opzione Chiave di crittografia gestita da Google.
Fai clic su Crea set di dati.
- In ID set di dati, inserisci
Copia una tabella accessibile pubblicamente in
demo_dataset
.Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, cerca le tabelle
tlc_yellow_trips
(fai clic su Amplia la ricerca a tutti i progetti, se necessario) e selezionane una, ad esempiotlc_yellow_trips_2017
. Quindi fai clic su Copia.Nel riquadro Copia tabella, inserisci le seguenti informazioni:
- Nell'elenco a discesa Nome progetto, seleziona il tuo progetto.
- Nell'elenco a discesa Nome set di dati, seleziona
demo_dataset
. - In Nome tabella, inserisci
trips
e poi fai clic su Copia.
Nel riquadro Explorer, verifica che la tabella
trips
sia elencata indemo_dataset
.
Aggiungerai i tag di Data Catalog alla tabella nella sezione successiva.
Crea un modello di tag pubblico e allega un tag per la voce
Per collegare un tag a una tabella del set di dati, devi essere il proprietario del set di dati. Per ulteriori informazioni sui tag pubblici e privati, consulta Tag pubblici e privati.
In un modello di tag, i campi dei tag sono facoltativi. Non devi fornire un valore per un campo quando colleghi un tag a una voce Data Catalog. Tuttavia, se un modello definisce un campo come obbligatorio, devi fornire un valore per il campo. Se il valore non viene fornito, viene generato un errore.
Puoi utilizzare lettere minuscole e trattini bassi per definire i nomi dei campi. I campi del modello di tag creati in questo esempio sono campi di dimostrazione e non vengono aggiornati automaticamente o sincronizzati con BigQuery.
Console
Vai alla pagina Dataplex > Modelli di tag.
Fai clic su Crea modello di tag e inserisci i seguenti dettagli:
- Inserisci
Demo Tag Template
come Nome del modello. - Mantieni la posizione predefinita.
- Mantieni la visibilità del modello di tag impostata su Pubblica.
Fai clic su Aggiungi campo per aggiungere 5 campi. Utilizza la tabella seguente e lascia vuoto il campo Descrizione campo.
Nome visualizzato del campo ID campo Campo obbligatorio Tipo Origine della risorsa di dati origine Sì Stringa Righe nell'asset num_rows No Doppio Contiene PII has_pii No Booleano Tipo PII pii_type No Enumerato Aggiungi i valori
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
eNONE
.Contesto context No RTF
- Inserisci
Fai clic su Crea.
La pagina Dettagli modello elenca tutte le informazioni sul modello di tag.
Per associare un tag a
demo_dataset
, vai alla pagina di ricerca di Dataplex.Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.
Nella casella di ricerca, inserisci
demo_dataset
. Nel risultato di ricerca vengono visualizzati il set di datidemo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
. Viene visualizzata la pagina Dettagli tabella BigQuery.Fai clic su Associa tag.
Nel riquadro Allega tag, inserisci i seguenti dettagli:
- Seleziona il target come
trips
. - Seleziona il modello di tag come
Demo Tag Template
. - Per i valori dei tag, inserisci i seguenti dettagli:
- Origine della risorsa di dati:
Copied from tlc_yellow_trips_2017
- Numero di righe nella risorsa dati:
113496874
- Contiene PII:
FALSE
- Tipo di PII:
NONE
- Origine della risorsa di dati:
Fai clic su Salva.
I campi dei tag sono ora elencati nella sezione Tag nei dettagli della tabella BigQuery.
- Seleziona il target come
gcloud
Esegui il comando gcloud data-catalog tag-templates create indicato di seguito per creare un modello di tag con i seguenti cinque campi:
-
display_name:
Origine della risorsa di datiid:
sourcerequired:
TRUEtype:
Stringa -
display_name:
Numero di righe nell'asset datiid:
num_rowsrequired:
FALSEtype:
Doppio -
display_name:
Contiene PIIid:
has_piirequired:
FALSEtype:
Booleano -
display_name:
Tipo di PIIid:
pii_typerequired:
FALSEtype:
Enumeratovalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- NESSUNO
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Vai
Prima di provare questo esempio, segui le istruzioni di configurazione di Go riportate nella guida rapida all'utilizzo di Data Catalog con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Data Catalog Go.
Per autenticarti in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java riportate nella guida rapida all'utilizzo di Data Catalog con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Data Catalog Java.
Per autenticarti in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js riportate nella guida rapida all'utilizzo di Data Catalog con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Data Catalog Node.js.
Per autenticarti in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione di Python riportate nella guida rapida all'utilizzo di Data Catalog con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Data Catalog Python.
Per autenticarti in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
REST e riga di comando
REST
Se non hai accesso alle librerie client Cloud per il tuo linguaggio o se vuoi testare l'API utilizzando le richieste REST, consulta i seguenti esempi e la documentazione dell'API REST Data Catalog.
Crea un modello di tag.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- project-id: il tuo ID progetto Google Cloud
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Corpo JSON della richiesta:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
Cerca il Data Catalog entry-id
per la tua tabella BigQuery
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
Metodo HTTP e URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Corpo JSON della richiesta:
Request body is empty.
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
Crea un tag dal modello e allegalo alla tabella BigQuery
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
- entry-id: ID voce di Data Catalog per la tabella trips del set di dati di esempio (restituito nei risultati di ricerca del passaggio precedente).
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Corpo JSON della richiesta:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Crea una panoramica per la voce
Nella console Google Cloud, puoi utilizzare il testo avanzato per descrivere una voce nel progetto Data Catalog.
Per creare una panoramica della tabella
trips
, vai alla pagina di ricerca di Dataplex.Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.
Nella casella di ricerca, inserisci
demo_dataset
.Nel risultato di ricerca vengono visualizzati il set di dati
demo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
.Viene visualizzata la pagina Dettagli tabella BigQuery.
Fai clic su Aggiungi panoramica e inserisci del testo. Inoltre, puoi includere immagini e testo con formattazione avanzata.
Fai clic su Salva.
Aggiungi un gestore dati per la voce
Nella console Google Cloud, puoi aggiungere uno o più responsabili dei dati a una voce nel progetto Data Catalog. È possibile contattare un responsabile dei dati per una voce per richiedere ulteriori informazioni sulla voce.
Per creare una panoramica della tabella
trips
, ripeti i primi tre passaggi della sezione precedente.Fai clic sull'icona Modifica gestore e aggiungi uno o più indirizzi email.
Puoi aggiungere un utente con un account email non Google.
Fai clic su Salva.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Eliminazione del set di dati
Se necessario, vai alla pagina BigQuery.
Nel riquadro Explorer, cerca il set di dati
demo_dataset
che hai creato.Fai clic sull'opzione
Azioni e poi su Elimina set di dati.Conferma l'azione di eliminazione.
Elimina il modello di tag
Vai alla pagina Catalogo di dati > Modelli.
Seleziona Modello di tag demo.
Nella riga, fai clic sull'opzione
Azioni e poi su Elimina questo modello.Conferma l'azione di eliminazione.
Passaggi successivi
Scopri di più su Data Catalog.
Scopri di più sui metadati tecnici e sui metadati aziendali.
Scopri di più sui modelli di tag, sui tag pubblici e sui tag privati in Tag e modelli di tag.
Consulta la Panoramica delle API e delle librerie client.