Set di dati di Storage Insights

La funzionalità dei set di dati di Storage Insights ti aiuta a comprendere, organizzare e gestire i tuoi dati su larga scala. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti per i quali vuoi aggiornare i metadati. Un indice di metadati interrogabile per i bucket e gli oggetti inclusi all'interno di questi progetti viene reso disponibile come set di dati collegato BigQuery.

Se vuoi ottenere approfondimenti sulle risorse Cloud Storage esportate in BigQuery, utilizza i set di dati Storage Insights. Queste informazioni possono aiutarti con l'esplorazione dei dati, l'ottimizzazione dei costi, l'applicazione della sicurezza e l'implementazione della governance. I set di dati di Storage Insights sono una funzionalità esclusiva disponibile solo con l'abbonamento a Storage Intelligence.

Panoramica

Un set di dati di Storage Insights è uno snapshot dinamico dei metadati di tutti i bucket e gli oggetti all'interno di uno o più progetti di origine specificati all'interno di un'organizzazione. Le informazioni fornite dai set di dati ti consentono di comprendere meglio e controllare regolarmente i dati di Cloud Storage.

Per creare un set di dati, devi prima creare una configurazione del set di dati in un progetto. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti di cui vuoi visualizzare i metadati. La configurazione del set di dati genera set di dati ogni giorno. Sia le configurazioni dei set di dati sia i set di dati sono risorse memorizzate in Cloud Storage.

Per visualizzare un set di dati, devi prima collegarlo a BigQuery.

Proprietà di configurazione del set di dati

Quando crei una configurazione del set di dati, imposti le seguenti proprietà del set di dati:

  • Nome: un nome utilizzato per fare riferimento al set di dati. I nomi vengono utilizzati come identificatori delle configurazioni dei set di dati e non possono essere modificati dopo la creazione della configurazione. Il nome contiene fino a 128 caratteri tra cui lettere, numeri e trattini bassi. Il nome deve iniziare con una lettera.

  • (Facoltativo) Descrizione: una descrizione del set di dati. Puoi modificare la descrizione in qualsiasi momento.

  • Ambito del set di dati: un'organizzazione, progetti o cartelle contenenti i bucket e gli oggetti per i quali vuoi i metadati. Puoi specificare i progetti o le cartelle singolarmente o come file CSV, con ogni numero di progetto o cartella su una riga separata. Puoi specificare fino a 10.000 progetti o cartelle in una configurazione del set di dati.

  • Filtri dei bucket (facoltativo): filtri utilizzati per includere ed escludere bucket specifici dal set di dati in base al nome del bucket o alle regioni.

  • Periodo di conservazione: il numero di giorni per i quali il set di dati acquisisce e conserva i dati, inclusa la data di creazione del set di dati. I set di dati vengono aggiornati con i metadati ogni 24 ore e possono conservare i dati per un massimo di 90 giorni. I dati acquisiti al di fuori del periodo di conservazione vengono eliminati automaticamente. Ad esempio, supponi di avere un set di dati creato il 1° ottobre 2023 con un periodo di conservazione impostato su 30. Il 30 ottobre, il set di dati rifletterà i dati degli ultimi 30 giorni, dal 1° ottobre al 30 ottobre. Il 31 ottobre il set di dati rifletterà i dati dal 2 al 31 ottobre. Puoi modificare il periodo di conservazione in qualsiasi momento.

  • Posizione: una posizione in cui archiviare il set di dati e i relativi dati. Ad esempio, us-central1. La località deve essere supportata da BigQuery. Ti consigliamo di selezionare la posizione delle tabelle BigQuery, se ne hai.

  • Tipo di agente di servizio: un agente di servizio basato sulla configurazione o un agente di servizio basato sul progetto.

    La creazione di una configurazione del set di dati esegue il provisioning di un agente di servizio per te. Per leggere i set di dati, all'agente di servizio devono essere concesse le autorizzazioni necessarie per leggere i dati dai bucket Cloud Storage.

    Un agente di servizio a livello di progetto può accedere e scrivere set di dati generati da tutte le configurazioni dei set di dati nel progetto. Ad esempio, se hai più configurazioni di set di dati all'interno di un progetto, devi concedere le autorizzazioni richieste all'agente di servizio basato sul progetto solo una volta affinché possa leggere e scrivere i set di dati per tutte le configurazioni di set di dati all'interno del progetto. Per ulteriori informazioni sulle autorizzazioni necessarie per leggere e scrivere i set di dati, consulta Autorizzazioni. Quando viene eliminata la configurazione di un set di dati, l'agente di servizio a livello di progetto non viene eliminato.

    Un agente di servizio basato sulla configurazione può accedere e scrivere solo il set di dati generato dalla configurazione specifica del set di dati. Ciò significa che, se hai più configurazioni del set di dati, dovrai concedere le autorizzazioni richieste a ogni agente di servizio basato sulla configurazione. Quando viene eliminata una configurazione del set di dati, viene eliminato anche l'agente di servizio basato sulla configurazione.

Collega il set di dati a BigQuery dopo aver creato una configurazione del set di dati. Il collegamento di un set di dati a BigQuery crea un set di dati collegato in BigQuery per le query. Puoi collegare o scollegare il set di dati in qualsiasi momento.

Per ulteriori informazioni sulle proprietà impostate durante la creazione o l'aggiornamento di una configurazione del set di dati, consulta la risorsa DatasetConfigs nella documentazione dell'API JSON.

Località supportate

Per la creazione di set di dati collegati sono supportate le seguenti località BigQuery:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

Schema dei metadati del set di dati

I seguenti campi dei metadati sono inclusi nei set di dati. Per ulteriori informazioni sulle modalità delle colonne di BigQuery, consulta Modalità. Le modalità delle colonne determinano come BigQuery archivia e esegue query sui dati.

Il campo snapshotTime memorizza l'ora dell'aggiornamento dello snapshot dei metadati del bucket in formato RFC 3339.

Metadati del bucket

Salvo diversa indicazione, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati del bucket facendo riferimento alla rappresentazione della risorsa Buckets per l'API JSON.

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* I tag del bucket. Per ulteriori informazioni, consulta l'API Cloud Resource Manager.

Metadati degli oggetti

Salvo diversa indicazione, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati dell'oggetto facendo riferimento alla rappresentazione della risorsa Objects per l'API JSON.

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

Metadati di progetto

I metadati del progetto vengono esposti come vista denominata project_attributes_view nel set di dati collegato:

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

Schema del set di dati per eventi ed errori

Nel set di dati collegato, puoi anche visualizzare gli eventi e gli errori di elaborazione delle istantanee nelle visualizzazioni events_view e error_attributes_view. Per scoprire come risolvere gli errori di elaborazione degli istantanei, consulta Risolvere gli errori dei set di dati.

Log eventi

Puoi visualizzare i log eventi nella visualizzazione events_view nel set di dati collegato:

Nome colonna Modalità Tipo Descrizione
manifest.snapshotTime NULLABLE TIMESTAMP L'ora in formato RFC 3339 in cui viene aggiornato lo snapshot degli eventi.
manifest.viewName NULLABLE STRING Il nome della visualizzazione aggiornata.
manifest.location NULLABLE STRING La posizione di origine dei dati aggiornati.
eventTime NULLABLE STRING L'ora in cui si è verificato l'evento.
eventCode NULLABLE STRING Il codice evento associato alla voce corrispondente. Il codice evento 1 fa riferimento alla visualizzazione manifest.viewName aggiornata con tutte le voci per la posizione della sorgente manifest.location all'interno dello snapshot manifest.snapshotTime.

Codici di errore

Puoi visualizzare i codici di errore nella visualizzazione error_attributes_view nel set di dati collegato:

Nome colonna Modalità Tipo Descrizione
errorCode NULLABLE INTEGER Il codice di errore associato a questa voce. Per un elenco dei valori validi e su come risolverli, consulta Risolvere gli errori dei set di dati.
errorSource NULLABLE STRING L'origine dell'errore. Valore valido: CONFIGURATION_PREPROCESSING.
errorTime NULLABLE TIMESTAMP L'ora in cui si è verificato l'errore.
sourceGcsLocation NULLABLE STRING La posizione di Cloud Storage di origine dell'errore. Per i progetti, questo campo è nullo perché non hanno sede.
bucketErrorRecord.bucketName NULLABLE STRING Il nome del bucket interessato dall'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket.
bucketErrorRecord.serviceAccount NULLABLE STRING L'account di servizio che ha bisogno dell'autorizzazione per importare oggetti dal bucket. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket.
projectErrorRecord.projectNumber NULLABLE INTEGER Il numero del progetto interessato dall'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto.
projectErrorRecord.organizationName NULLABLE STRING Il numero dell'organizzazione a cui deve appartenere il progetto per poter essere elaborato. Un valore pari a 0 indica che il set di dati non è nell'organizzazione. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto.

Risolvere i problemi relativi ai set di dati

Per scoprire come risolvere gli errori di elaborazione degli snapshot registrati nella visualizzazione error_attributes_view del set di dati collegato, consulta la tabella seguente:

Codice di errore Caso di errore Messaggio di errore Risoluzione dei problemi
1 Il progetto di origine non appartiene all'organizzazione Il progetto di origine projectErrorRecord.projectNumber non appartiene all'organizzazione projectErrorRecord.organizationName. Aggiungi il progetto di origine projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName. Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni.
2 Errore di autorizzazione del bucket Autorizzazione negata per l'importazione di oggetti per il bucket bucketErrorRecord.bucketName. Concedi all'account di servizio bucketErrorRecord.serviceAccount le autorizzazioni IAM (Identity and Access Management) per consentire l'importazione di oggetti per il bucket bucketErrorRecord.bucketName. Per saperne di più, vedi Concedere le autorizzazioni richieste all'agente di servizio.
3 Il progetto di destinazione non appartiene all'organizzazione Il progetto di destinazione projectErrorRecord.projectNumber non è presente nell'organizzazione projectErrorRecord.organizationName. Aggiungi il progetto di destinazione projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName. Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni.
4 Nel progetto di origine non è configurato Storage Intelligence. Nel progetto di origine projectErrorRecord.projectNumber non è configurato Storage Intelligence. Configura Storage Intelligence per il progetto di origine projectErrorRecord.projectNumber. Per ulteriori informazioni, consulta Configurare e gestire Storage Intelligence.
5 Nel bucket non è configurato Storage Intelligence. Per il bucket bucketErrorRecord.bucketName non è configurato Storage Intelligence. Configura Storage Intelligence per il bucket bucketErrorRecord.bucketName. Per ulteriori informazioni, consulta Configurare e gestire Storage Intelligence.

Considerazioni

Considera quanto segue per le configurazioni dei set di dati:

  • Quando rinomini una cartella in un bucket con lo spazio dei nomi gerarchico attivo, i nomi degli oggetti al suo interno vengono aggiornati. Quando vengono importati dal set di dati collegato, questi snapshot degli oggetti vengono considerati nuove voci nei set di dati collegati.

  • I set di dati sono supportati solo in queste località BigQuery.

Passaggi successivi