Tagga le tabelle in Data Catalog in base agli approfondimenti dei profili dati

Questa pagina descrive come applicare automaticamente i tag Data Catalog alle tabelle BigQuery dopo che Sensitive Data Protection ha profilato queste tabelle. Questa pagina fornisce anche query di esempio che puoi utilizzare per trovare dati taggati nella tua organizzazione e nei tuoi progetti.

Questa funzionalità è utile se vuoi arricchire i metadati curati manualmente in Dataplex Universal Catalog con approfondimenti raccolti dai profili dei dati di Sensitive Data Protection. I tag generati includono le seguenti informazioni:

  • Tipi di informazioni (infoTypes) rilevati nelle colonne della tabella
  • Livello di sensibilità calcolato della tabella
  • Livello di rischio dei dati calcolato della tabella

Gli approfondimenti dei profili di dati di Sensitive Data Protection possono aiutarti a utilizzare Dataplex Universal Catalog per scoprire i dati sensibili e ad alto rischio nella tua organizzazione. Utilizza questi approfondimenti per prendere decisioni informate su come gestire e governare i tuoi dati.

Se vuoi inviare i risultati dei job di ispezione, non le operazioni di profilazione dei dati, a Dataplex Universal Catalog, consulta Invia i risultati dell'ispezione Sensitive Data Protection a Data Catalog.

Informazioni sui profili di dati

Puoi configurare Sensitive Data Protection in modo che generi automaticamente profili sui dati in un'organizzazione, una cartella o un progetto. I profili di dati contengono metriche e metadati sui tuoi dati e ti aiutano a determinare dove si trovano i dati sensibili e ad alto rischio. Sensitive Data Protection riporta queste metriche a vari livelli di dettaglio. Per informazioni sui tipi di dati che puoi profilare, vedi Risorse supportate.

Informazioni su Dataplex Universal Catalog e Data Catalog

Dataplex Universal Catalog è un servizio Google Cloud che unifica i dati distribuiti e automatizza la gestione e la governance dei dati. Data Catalog (deprecato) è un servizio di gestione dei metadati scalabile e completamente gestito.

Data Catalog ti consente di utilizzare tag e modelli di tag per allegare metadati aziendali ai tuoi dati. Puoi quindi cercare e gestire tutti i metadati per la tua organizzazione o il tuo progetto in un servizio unificato. Per saperne di più, vedi Tag e modelli di tag.

Come funziona

Se la configurazione di scansione del rilevamento ha l'azione Invia a Dataplex come tag abilitata, Sensitive Data Protection esegue le seguenti operazioni ogni volta che profila i tuoi dati. Questa azione viene applicata solo ai profili nuovi e aggiornati. I profili esistenti che non vengono aggiornati non vengono inviati a Dataplex Universal Catalog.

  1. Crea un modello di tag privato contenente lo schema dei tag che verranno allegati alle tue tabelle BigQuery. Per informazioni sul nome, sull'ID e sulla posizione del modello di tag, consulta Dettagli del modello di tag.

    Solo le entità con ruoli e autorizzazioni adeguati possono visualizzare il modello di tag.

  2. Crea un tag per ogni tabella BigQuery di cui crei il profilo. Il tag si basa sul modello di tag appena creato.

    Ad esempio, un tag risultante collegato a una tabella può avere i seguenti metadati:

    Nome visualizzato Valore
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Una tabella ha due tag se è stata profilata tramite entrambi i seguenti metodi:

  • Una configurazione di scansione a livello di organizzazione o cartella
  • Una configurazione di scansione a livello di progetto

Dopo aver taggato le tabelle, puoi cercare in Dataplex Universal Catalog tutti i dati della tua organizzazione o del tuo progetto con valori di tag specifici.

Dettagli del modello di tag

Il nome del modello, l'ID modello e il progetto in cui è archiviato il nuovo modello di tag dipendono dalla risorsa a cui si riferisce la configurazione della scansione.

  • Se la configurazione di scansione è una configurazione a livello di organizzazione o cartella, il modello di tag viene archiviato nel container dell'agente di servizio. Il nome del modello di tag è Sensitive Data Profile. Il suo ID modello è sensitive_data_profile.
  • Se la configurazione di scansione è a livello di progetto, il modello di tag viene archiviato nel progetto di cui creare il profilo. Il nome del modello di tag è Sensitive Data Profile (Project). Il suo ID modello è sensitive_data_profile_project.

Prezzi

Per informazioni su come altri servizi Google Cloud potrebbero addebitarti l'esportazione dei profili di dati, consulta Prezzi per l'esportazione dei profili di dati.

Tagga automaticamente le tabelle BigQuery in base ai profili dei dati

  1. Crea una configurazione di scansione. In alternativa, modifica una configurazione di scansione esistente.

  2. Nel passaggio Aggiungi azioni, assicurati che l'opzione Invia a Dataplex come tag sia attivata.

    • Se stai creando una configurazione di scansione, questa azione è abilitata per impostazione predefinita.
    • Se stai modificando una configurazione dell'analisi, devi attivare questa azione.

Dopo aver profilato e taggato i dati, puoi iniziare a cercare i dati taggati in Dataplex Universal Catalog.

Ruoli e autorizzazioni per la visualizzazione dei tag

I risultati della ricerca di Dataplex Universal Catalog mostrano solo i dati a cui hai accesso. Per cercare i tag collegati alle tabelle BigQuery, devi disporre dei seguenti ruoli o autorizzazioni Identity and Access Management (IAM).

Finalità Ruolo predefinito Autorizzazioni pertinenti
Visualizza il modello di tag privato Visualizzatore TagTemplate Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Visualizzare i tag applicati alle tabelle BigQuery Visualizzatore metadati BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Per saperne di più sui ruoli di Dataplex Universal Catalog, vedi Ruoli per visualizzare tag pubblici e privati.

Per informazioni sulla concessione di un ruolo predefinito, consulta Concedere un singolo ruolo. Se vuoi utilizzare un ruolo personalizzato anziché uno predefinito, assicurati che il ruolo personalizzato disponga delle autorizzazioni pertinenti. Per ulteriori informazioni, vedi Creare un ruolo personalizzato.

Trovare il modello di tag generato

  1. Nella console Google Cloud , vai alla pagina Modelli di tag di Dataplex Universal Catalog.

    Vai a Modelli di tag

  2. Nell'elenco, trova il modello di tag. Per informazioni sul nome, sull'ID e sulla posizione del modello di tag, consulta Dettagli del modello di tag.

  3. (Facoltativo) Per trovare il modello di tag generato da una determinata configurazione di scansione di rilevamento, inserisci quanto segue nel campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del progetto associato alla configurazione della scansione. Se hai profilato i dati a livello di organizzazione o cartella, inserisci l'ID progetto del contenitore dell'agente di servizio.
    • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.

Trovare il tag generato per un determinato profilo di dati della tabella

  1. Nella console Google Cloud , vai alla pagina Cerca di Dataplex Universal Catalog.

    Vai a Cerca

  2. Nel campo Cerca, inserisci quanto segue:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Sostituisci quanto segue:

    • TABLE_ID: l'ID della tabella di cui è stato eseguito il profiling.
    • PROJECT_ID: l'ID del progetto che contiene il modello di tag. Se hai profilato i dati a livello di organizzazione o cartella, inserisci l'ID progetto del contenitore dell'agente di servizio.
    • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  3. Nell'elenco visualizzato, fai clic sull'ID tabella. Vengono visualizzati i dettagli della tabella BigQuery insieme a eventuali tag Sensitive Data Profile o Sensitive Data Profile (Project) allegati.

    Una tabella ha due tag se è stata profilata tramite entrambi i seguenti metodi:

    • Una configurazione di scansione a livello di organizzazione o cartella
    • Una configurazione di scansione a livello di progetto

Per informazioni su come eseguire una ricerca tramite l'API Data Catalog, consulta Come cercare asset di dati.

Esempi di query di ricerca

Questa sezione fornisce query di ricerca di esempio che puoi utilizzare in Dataplex Universal Catalog per trovare dati nella tua organizzazione o nel tuo progetto con valori di tag specifici.

Puoi trovare solo i dati a cui hai accesso. L'accesso ai dati è controllato tramite le autorizzazioni IAM. Per ulteriori informazioni, vedi Ruoli e autorizzazioni per la visualizzazione dei tag in questa pagina.

Puoi inserire queste query nella pagina Cerca di Dataplex Universal Catalog nella console Google Cloud .

Vai a Cerca

Per informazioni su come formare le query, consulta la sintassi di ricerca di Data Catalog. Per informazioni su come eseguire una ricerca tramite l'API Data Catalog, consulta Come cercare asset di dati.

Trovare tutte le tabelle taggate utilizzando il nuovo modello di tag

tag:PROJECT_ID.TAG_TEMPLATE_ID

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del progetto che contiene il modello di tag. Se hai profilato i dati a livello di organizzazione o cartella, inserisci l'ID progetto del contenitore dell'agente di servizio.
  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.

Gli esempi successivi in questa pagina non includono l'ID progetto, pertanto potresti ottenere risultati associati a varie configurazioni di scansione di rilevamento. Per limitare i risultati a una configurazione di scansione specifica, aggiungi l'ID progetto alla query come mostrato in questo esempio.

Trovare tutte le tabelle sottoposte a profilazione prima di una determinata data

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • DATE: una data nel formato YYYY-MM-DD, ad esempio 2023-01-15.

Trovare tutte le tabelle con un determinato punteggio di sensibilità a livello di tabella

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • SENSITIVITY_SCORE: uno tra HIGH, MODERATE o LOW.

Per ulteriori informazioni, vedi Livelli di rischio e sensibilità dei dati.

Trovare tutte le tabelle con un determinato livello di rischio dei dati

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • DATA_RISK_LEVEL: uno tra HIGH, MODERATE o LOW.

Per ulteriori informazioni, vedi Livelli di rischio e sensibilità dei dati.

Trovare tutte le tabelle che contengono un determinato infoType previsto

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • INFOTYPE: il infoType, ad esempio PERSON_NAME.

Per un elenco di tutti gli infoType integrati, vedi Guida di riferimento per i rilevatori di infoType.

Per ulteriori informazioni, consulta Predicted infoType nella documentazione di riferimento sulle metriche.

Trovare tutte le tabelle che contengono parzialmente un determinato infoType

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • INFOTYPE: il infoType, ad esempio PERSON_NAME.

Per un elenco di tutti gli infoType integrati, vedi Guida di riferimento per i rilevatori di infoType.

Per maggiori informazioni, consulta Altri infoType nella documentazione di riferimento sulle metriche.

Trovare tutte le tabelle che contengono una determinata colonna con un determinato infoType previsto

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • COLUMN_NAME: il nome della colonna nella tabella BigQuery.
  • INFOTYPE: il infoType, ad esempio PERSON_NAME.

Per un elenco di tutti gli infoType integrati, vedi Guida di riferimento per i rilevatori di infoType.

Per ulteriori informazioni, consulta Predicted infoType nella documentazione di riferimento sulle metriche.

Trova tutte le tabelle che contengono una determinata colonna con un determinato punteggio di sensibilità a livello di colonna

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Sostituisci quanto segue:

  • TAG_TEMPLATE_ID: sensitive_data_profile se la configurazione della scansione è per un'organizzazione o una cartella; sensitive_data_profile_project se la configurazione della scansione è per un progetto.
  • COLUMN_NAME: il nome della colonna nella tabella BigQuery.
  • SENSITIVITY_SCORE: uno tra HIGH, MODERATE o LOW.

Per ulteriori informazioni, vedi Livelli di rischio e sensibilità dei dati.

Valori tag troncati

Se i dati dell'intestazione di colonna di una tabella BigQuery superano i 10 MB, il tag risultante potrebbe mostrare [TRUNCATED] nel campo Column Insights o Column Sensitivity. In questo caso, ti consigliamo di andare a Sensitive Data Protection per esaminare il profilo dei dati della tabella e i profili dei dati delle colonne associati.