Cloud Data Loss Prevention (Cloud DLP) ora fa parte di Sensitive Data Protection. Il nome dell'API rimane invariato: API Cloud Data Loss Prevention (API DLP). Per informazioni sui servizi che compongono Sensitive Data Protection, consulta la panoramica di Sensitive Data Protection.

Questa pagina è stata tradotta dall'API Cloud Translation.

Analizzare i profili dati archiviati in BigQuery

Se hai configurato il servizio di rilevamento dei dati sensibili per inviare tutti i profili di dati generati correttamente a BigQuery, puoi eseguire query su questi profili per ottenere informazioni sui tuoi dati. Puoi anche utilizzare strumenti di visualizzazione come Looker Studio per creare report personalizzati in base alle esigenze della tua attività. In alternativa, puoi utilizzare un report predefinito fornito da Sensitive Data Protection, modificarlo e condividerlo in base alle esigenze.

Questa pagina fornisce query SQL di esempio che puoi utilizzare per scoprire di più sui tuoi profili dei dati. Mostra anche come visualizzare i profili dei dati in Looker Studio.

Per ulteriori informazioni sui profili dati, consulta Profili dati.

Prima di iniziare

Questa pagina presuppone che tu abbia configurato la profilazione a livello di organizzazione, cartella o progetto. Nella configurazione della scansione di rilevamento, assicurati che l'azione Salva le copie dei profili di dati in BigQuery sia abilitata. Per ulteriori informazioni su come creare una configurazione di scansione di rilevamento, consulta Creare una configurazione di scansione.

In questo documento, la tabella che contiene i profili dei dati esportati è chiamata tabella di output.

Assicurati di avere a portata di mano l'ID progetto, l'ID set di dati e l'ID tabella della tabella di output. Devi chiedere loro di eseguire le procedure descritte in questa pagina.

La visualizzazione `latest`

Quando Sensitive Data Protection esporta i profili dati nella tabella di output, crea anche la latest visualizzazione. Questa vista è una tabella virtuale prefiltrata che include solo gli snapshot più recenti dei profili dei dati. La vista latest ha lo stesso schema della tabella di output, quindi puoi utilizzarle in modo intercambiabile nelle query SQL e nei report di Looker Studio. I risultati possono differire perché la tabella di output contiene snapshot meno recenti dei profili di dati.

La visualizzazione latest viene archiviata nella stessa posizione della tabella di output. Il suo nome ha il seguente formato:

OUTPUT_TABLE_latest_VERSION

Sostituisci quanto segue:

OUTPUT_TABLE: l'ID della tabella che contiene i profili dei dati esportati.
VERSION: il numero di versione della visualizzazione.

Ad esempio, se il nome della tabella di output è table-profile, la visualizzazione latest ha un nome come table-profile_latest_v1.

Ultima visualizzazione

Quando utilizzi la visualizzazione latest nelle query SQL, utilizza il nome completo della visualizzazione, che include l'ID progetto, l'ID set di dati, l'ID tabella e il suffisso, ad esempio myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Scegliere tra la tabella di output e la visualizzazione `latest`

La visualizzazione latest include solo gli snapshot più recenti del profilo dei dati, mentre la tabella di output contiene tutti gli snapshot del profilo dei dati, inclusi quelli obsoleti. Ad esempio, una query sulla tabella di output può restituire più profili dei dati delle colonne per la stessa colonna, uno per ogni volta che è stato profilato.

Quando scegli tra l'utilizzo della tabella di output e della visualizzazione latest nelle query SQL o nei report di Looker Studio, considera quanto segue:

La visualizzazione latest è utile se hai asset di dati per i quali è stato eseguito un nuovo profilo e vuoi visualizzare solo i profili più recenti, non le versioni precedenti. ovvero vuoi vedere lo stato attuale dei dati profilati.
La tabella di output è utile se vuoi ottenere una visualizzazione storica dei dati profilati. Ad esempio, stai cercando di determinare se la tua organizzazione ha mai memorizzato un particolare infoType o vuoi vedere le modifiche apportate a un particolare profilo dei dati.

Esempi di query SQL

Questa sezione fornisce query di esempio che puoi utilizzare durante l'analisi dei profili dei dati. Per eseguire queste query, consulta Esecuzione di query interattive.

Nei seguenti esempi, sostituisci TABLE_OR_VIEW con una delle seguenti opzioni:

Il nome della tabella di output, ovvero la tabella che contiene i profili dei dati esportati, ad esempio myproject.mydataset.table-profile.
Il nome della visualizzazione latest della tabella di output, ad esempio myproject.mydataset.table-profile_latest_v1.

In entrambi i casi, devi includere l'ID progetto e l'ID set di dati.

Per ulteriori informazioni, vedi Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.

Per risolvere eventuali errori riscontrati, consulta Messaggi di errore.

Elenca tutte le colonne con un punteggio di testo libero elevato e prove di corrispondenze con altri infoType

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`
  LEFT JOIN UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Per informazioni su come correggere questi risultati, consulta Strategie consigliate per mitigare il rischio di perdita di dati.

Per ulteriori informazioni sulle metriche Punteggio testo libero e Altri infoType, consulta Profili dei dati delle colonne.

Elenca tutte le tabelle che contengono una colonna di numeri di carte di credito

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER è un tipo di informazioni integrato che rappresenta un numero di carta di credito.

Per informazioni su come correggere questi risultati, consulta Strategie consigliate per mitigare il rischio di perdita di dati.

Elenca i profili delle tabelle che contengono colonne di numeri di carte di credito, codici fiscali statunitensi e nomi di persone

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Questa query utilizza i seguenti infoType integrati:

CREDIT_CARD_NUMBER: rappresenta un numero di carta di credito
PERSON_NAME: rappresenta il nome completo di una persona
US_SOCIAL_SECURITY_NUMBER rappresenta un numero di previdenza sociale statunitense

Per informazioni su come correggere questi risultati, consulta Strategie consigliate per mitigare il rischio di perdita di dati.

Elenca i bucket in cui il punteggio di sensibilità è `SENSITIVITY_HIGH`

SELECT file_store_profile.file_store_path, file_store_profile.resource_visibility, file_store_profile.sensitivity_score
FROM `TABLE_OR_VIEW`
WHERE file_store_profile.sensitivity_score.score ='SENSITIVITY_HIGH'
;

Per ulteriori informazioni, consulta Profili dei dati del file store.

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui il punteggio di sensibilità è `SENSITIVITY_HIGH`

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions, file_store_profile.profile_last_generated.timestamp
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND summaries.sensitivity_score.score ='SENSITIVITY_HIGH'
GROUP BY 1, 2, 4
;

Per ulteriori informazioni, consulta Profili dei dati del file store.

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui sono stati rilevati numeri di carte di credito

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name='CREDIT_CARD_NUMBER'
GROUP BY 1, 2
;

CREDIT_CARD_NUMBER è un tipo di informazioni integrato che rappresenta un numero di carta di credito.

Per ulteriori informazioni, consulta Profili dei dati del file store.

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui è stato rilevato un numero di carta di credito, un nome di persona o un numero di previdenza sociale statunitense

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name IN ('CREDIT_CARD_NUMBER', 'PERSON_NAME', 'US_SOCIAL_SECURITY_NUMBER')
GROUP BY 1, 2
;

Questa query utilizza i seguenti infoType integrati:

CREDIT_CARD_NUMBER: rappresenta un numero di carta di credito
PERSON_NAME: rappresenta il nome completo di una persona
US_SOCIAL_SECURITY_NUMBER rappresenta un numero di previdenza sociale statunitense

Per ulteriori informazioni, consulta Profili dei dati del file store.

Utilizzare i profili dati in Looker Studio

Per visualizzare i profili di dati in Looker Studio, puoi utilizzare un report predefinito oppure crearne uno personalizzato.

Utilizzare un report predefinito

Sensitive Data Protection fornisce un report di Looker Studio predefinito che mette in evidenza le informazioni dettagliate dei profili dati. La dashboard di Sensitive Data Protection è un report di più pagine che offre una rapida panoramica di alto livello dei tuoi profili di dati, incluse le suddivisioni per rischio, per infoType e per posizione. Esplora le altre schede per visualizzare le visualizzazioni per regione geografica e rischio di postura oppure visualizza in dettaglio metriche specifiche. Puoi utilizzare questo report predefinito così com'è o personalizzarlo in base alle tue esigenze. Questa è la versione consigliata del report predefinito.

Per visualizzare il report predefinito con i tuoi dati, inserisci i valori richiesti nel seguente URL. Poi, copia l'URL risultante nel browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Sostituisci quanto segue:

PROJECT_ID: il progetto che contiene la tabella di output.
DATASET_ID: il set di dati che contiene la tabella di output.
TABLE_OR_VIEW: una delle seguenti opzioni:
- Il nome della tabella di output, ovvero la tabella che contiene i profili dei dati esportati,ad esempiomyproject.mydataset.table-profile.
- Il nome della visualizzazione latest della tabella di output, ad esempio myproject.mydataset.table-profile_latest_v1.
Per ulteriori informazioni, vedi Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.

Il caricamento del report con i tuoi dati in Looker Studio può richiedere alcuni minuti. Se riscontri errori o se il report non viene caricato, consulta la sezione Risolvere gli errori relativi al report predefinito in questa pagina.

Nell'esempio seguente, la dashboard mostra che i dati a bassa sensibilità e ad alta sensibilità sono presenti in più paesi in tutto il mondo.

Report predefinito

Versione precedente del report predefinito

La prima versione del report predefinito è ancora disponibile al seguente indirizzo:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

crea un report

Looker Studio ti consente di creare report interattivi. In questa sezione, crei un semplice report tabellare in Looker Studio basato sui profili di dati esportati nella tabella di output in BigQuery.

Assicurati di avere a portata di mano l'ID progetto, l'ID set di dati e l'ID tabella della tabella di output o della vista latest. Ti servono per eseguire questa procedura.

Questo esempio mostra come creare un report contenente una tabella che mostra ogni infoType segnalato nei profili dei dati e la relativa frequenza.

In generale, quando accedi a BigQuery tramite Looker Studio, sostieni costi di utilizzo di BigQuery. Per ulteriori informazioni, consulta la pagina Visualizzazione dei dati BigQuery utilizzando Looker Studio.

Per creare un report:

Apri Looker Studio e accedi.
Fai clic su Report vuoto.
Nella scheda Connessione ai dati, fai clic sulla scheda BigQuery.
Se richiesto, autorizza Looker Studio ad accedere ai tuoi progetti BigQuery.
Connettiti ai tuoi dati BigQuery:
1. Per Progetto, seleziona il progetto che contiene la tabella di output. Puoi cercare il progetto nelle schede Progetti recenti, I miei progetti e Progetti condivisi.
2. Per Set di dati, seleziona il set di dati che contiene la tabella di output.
3. Per Tabella, seleziona la tabella di output o la visualizzazione latest della tabella di output.
  
  Per ulteriori informazioni, vedi Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.
4. Fai clic su Aggiungi.
5. Nella finestra di dialogo visualizzata, fai clic su Aggiungi al report.
Per aggiungere una tabella che mostri ogni infoType segnalato e la relativa frequenza (conteggio record):
1. Fai clic su Aggiungi un grafico.
2. Seleziona uno stile di tabella.
3. Fai clic sull'area in cui vuoi posizionare il grafico.
  
  Il grafico viene visualizzato in formato tabellare.
4. Ridimensiona la tabella in base alle esigenze.
  
  Se la tabella è selezionata, le relative proprietà vengono visualizzate nel riquadro Grafico.
5. Nel riquadro Grafico, nella scheda Configurazione, rimuovi le dimensioni e le metriche preselezionate.
6. Per Dimensione, aggiungi column_profile.column_info_type.info_type.name o file_store_profile.file_cluster_summaries.file_store_info_type_summaries.info_type.name.
  
  Questi esempi forniscono dati a livello di colonna e cluster di file. Puoi provare anche altre dimensioni. Ad esempio, puoi utilizzare dimensioni a livello di tabella e di bucket.
7. Per Metrica, aggiungi Conteggio record.
La tabella risultante è simile alla seguente:

Scopri di più sulle tabelle in Looker Studio.

Risolvere gli errori relativi al report predefinito

Se visualizzi errori, controlli mancanti o grafici mancanti durante il caricamento del report predefinito, assicurati che utilizzi i campi più recenti:

Se il report predefinito è collegato alla tabella di output, verifica che questa tabella sia collegata a una configurazione di scansione di rilevamento attiva. Per visualizzare le impostazioni delle configurazioni di scansione, consulta Visualizzare una configurazione di scansione.
Se il report predefinito è connesso alla vista latest, verifica che questa vista sia ancora presente in BigQuery. Se è presente, prova a modificare la visualizzazione. In alternativa, crea una copia della vista e collega il report predefinito a questa copia. Per saperne di più sulla visualizzazione latest, vedi La visualizzazione latest in questa pagina.

Se continui a visualizzare errori dopo aver provato questi passaggi, contatta l'assistenza clienti Google Cloud.

Passaggi successivi

Scopri le azioni che puoi intraprendere per correggere i risultati del profilo dei dati.

Analizzare i profili dati archiviati in BigQuery Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

La visualizzazione latest

Scegliere tra la tabella di output e la visualizzazione latest

Esempi di query SQL

Elenca tutte le colonne con un punteggio di testo libero elevato e prove di corrispondenze con altri infoType

Elenca tutte le tabelle che contengono una colonna di numeri di carte di credito

Elenca i profili delle tabelle che contengono colonne di numeri di carte di credito, codici fiscali statunitensi e nomi di persone

Elenca i bucket in cui il punteggio di sensibilità è SENSITIVITY_HIGH

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui il punteggio di sensibilità è SENSITIVITY_HIGH

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui sono stati rilevati numeri di carte di credito

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui è stato rilevato un numero di carta di credito, un nome di persona o un numero di previdenza sociale statunitense

Utilizzare i profili dati in Looker Studio

Utilizzare un report predefinito

Versione precedente del report predefinito

crea un report

Risolvere gli errori relativi al report predefinito

Passaggi successivi

Analizzare i profili dati archiviati in BigQuery

La visualizzazione `latest`

Scegliere tra la tabella di output e la visualizzazione `latest`

Elenca i bucket in cui il punteggio di sensibilità è `SENSITIVITY_HIGH`

Elenca tutti i percorsi dei bucket, i cluster e le estensioni dei file scansionati in cui il punteggio di sensibilità è `SENSITIVITY_HIGH`