Set di dati di Storage Insights

La funzionalità dei set di dati di Storage Insights ti aiuta a comprendere, organizzare e gestire i tuoi dati su larga scala. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti per cui vuoi aggiornare i metadati. Un indice dei metadati interrogabile per i bucket e gli oggetti inclusi in questi progetti viene reso disponibile come set di dati collegato a BigQuery.

Se vuoi ottenere insight per le tue risorse Cloud Storage esportate in BigQuery, utilizza i set di dati Storage Insights. Queste informazioni possono aiutarti con l'esplorazione dei dati, l'ottimizzazione dei costi, l'applicazione della sicurezza e l'implementazione della governance. I set di dati di Storage Insights sono una funzionalità esclusiva disponibile solo tramite l'abbonamento a Storage Intelligence.

Panoramica

Un set di dati Storage Insights è uno snapshot cumulativo dei metadati di tutti i bucket e gli oggetti all'interno di uno o più progetti di origine specificati all'interno di un'organizzazione. Le informazioni fornite dai set di dati ti consentono di comprendere meglio e controllare regolarmente i tuoi dati di Cloud Storage.

Per creare un set di dati, devi prima creare una configurazione del set di dati in un progetto. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti di cui vuoi visualizzare i metadati. La configurazione del set di dati genera set di dati ogni giorno. Sia le configurazioni dei set di dati sia i set di dati sono risorse archiviate in Cloud Storage.

Per visualizzare un set di dati, devi prima collegarlo a BigQuery.

Proprietà di configurazione del set di dati

Quando crei una configurazione del set di dati, imposti queste proprietà del set di dati. Potrebbero essere necessarie fino a 48 ore prima che i primi dati vengano visualizzati come set di dati collegato in BigQuery dopo la configurazione del set di dati. Gli eventuali oggetti o bucket appena aggiunti vengono inclusi nello snapshot giornaliero successivo.

  • Nome: un nome utilizzato come riferimento al set di dati. I nomi vengono utilizzati come identificatore delle configurazioni del set di dati e non possono essere modificati dopo la creazione della configurazione. Il nome contiene fino a 128 caratteri tra cui lettere, numeri e trattini bassi. Il nome deve iniziare con una lettera.

  • (Facoltativo) Descrizione: una descrizione del set di dati. Puoi modificare la descrizione in qualsiasi momento.

  • Ambito del set di dati: un campo obbligatorio che specifica un'organizzazione, progetti o cartelle contenenti i bucket e gli oggetti per i quali vuoi i metadati. Puoi specificare progetti o cartelle singolarmente o come file CSV, con ogni progetto o numero di cartella su una riga separata. Puoi specificare fino a 10.000 progetti o cartelle in una configurazione del set di dati. I set di dati sono configurati per l'ambito del set di dati specificato. Per ogni configurazione del set di dati può essere specificato un solo ambito del set di dati. Puoi aggiornare l'ambito del set di dati quando modifichi la configurazione del set di dati.

  • Filtri dei bucket (facoltativo): filtri utilizzati per includere ed escludere bucket specifici dal set di dati in base al nome del bucket o alle regioni.

  • Periodo di conservazione: il numero di giorni per cui il set di dati acquisisce e conserva i dati, inclusa la data di creazione del set di dati. I set di dati vengono aggiornati con i metadati ogni 24 ore e possono conservare i dati per un massimo di 90 giorni. I dati acquisiti al di fuori della finestra di conservazione vengono eliminati automaticamente. Ad esempio, supponi di avere un set di dati creato il 1° ottobre 2023 con un periodo di conservazione impostato su 30. Il 30 ottobre, il set di dati rifletterà i dati degli ultimi 30 giorni, dal 1° al 30 ottobre. Il 31 ottobre, il set di dati rifletterà i dati dal 2 al 31 ottobre. Puoi modificare il periodo di conservazione in qualsiasi momento.

  • Posizione: una posizione in cui archiviare il set di dati e i relativi dati. Ad esempio, us-central1. La località deve essere supportata da BigQuery. Ti consigliamo di selezionare la posizione delle tue tabelle BigQuery, se ne hai.

  • Tipo di agente di servizio: un agente di servizio con ambito a livello di configurazione o un agente di servizio con ambito a livello di progetto.

    La creazione di una configurazione del set di dati esegue il provisioning di un service agent per te. Per leggere i set di dati, all'agente di servizio devono essere concesse le autorizzazioni necessarie per leggere i dati dai bucket Cloud Storage.

    Un agente di servizio con ambito progetto può accedere e scrivere set di dati generati da tutte le configurazioni del set di dati nel progetto. Ad esempio, se hai più configurazioni di set di dati all'interno di un progetto, devi concedere le autorizzazioni richieste all'agente di servizio con ambito progetto una sola volta per consentirgli di leggere e scrivere set di dati per tutte le configurazioni di set di dati all'interno del progetto. Per ulteriori informazioni sulle autorizzazioni necessarie per leggere e scrivere set di dati, vedi Autorizzazioni. Quando viene eliminata una configurazione del set di dati, l'agente di servizio con ambito progetto non viene eliminato.

    Un agente di servizio con ambito di configurazione può accedere e scrivere solo il set di dati generato dalla particolare configurazione del set di dati. Ciò significa che se hai più configurazioni di set di dati, dovrai concedere le autorizzazioni richieste a ogni agente di servizio con ambito di configurazione. Quando viene eliminata una configurazione del set di dati, viene eliminato anche l'agente di servizio con ambito di configurazione.

Collega il set di dati a BigQuery dopo aver creato una configurazione del set di dati. Il collegamento di un set di dati a BigQuery crea un set di dati collegato in BigQuery per le query. Puoi collegare o scollegare il set di dati in qualsiasi momento.

Per saperne di più sulle proprietà che imposti durante la creazione o l'aggiornamento di una configurazione del set di dati, consulta la risorsa DatasetConfigs nella documentazione dell'API JSON.

Località supportate

Per la creazione di set di dati collegati sono supportate le seguenti località BigQuery:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

Schema di set di dati dei metadati

I seguenti campi di metadati sono inclusi nei set di dati. Per ulteriori informazioni sulle modalità delle colonne BigQuery, vedi Modalità. Le modalità delle colonne determinano in che modo BigQuery archivia ed esegue query sui dati.

Il campo snapshotTime memorizza l'ora dell'aggiornamento dello snapshot dei metadati del bucket nel formato RFC 3339.

Metadati del bucket

Se non diversamente indicato, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati dei bucket facendo riferimento alla rappresentazione della risorsa Buckets per l'API JSON.

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* I tag del bucket. Per saperne di più, consulta la pagina API Cloud Resource Manager.

Metadati degli oggetti

Se non diversamente indicato, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati degli oggetti facendo riferimento alla rappresentazione della risorsa Oggetti per l'API JSON.

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

Metadati di progetto

I metadati del progetto vengono esposti come una vista denominata project_attributes_view nel set di dati collegato:

Campo metadati Modalità Tipo
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

Schema del set di dati per eventi ed errori

Nel set di dati collegato, puoi anche visualizzare gli eventi di elaborazione degli snapshot e gli errori nelle visualizzazioni events_view e error_attributes_view. Per scoprire come risolvere i problemi relativi agli errori di elaborazione degli snapshot, consulta Risolvere i problemi relativi agli errori del set di dati.

Log eventi

Puoi visualizzare i log degli eventi nella visualizzazione events_view del set di dati collegato:

Nome colonna Modalità Tipo Descrizione
manifest.snapshotTime NULLABLE TIMESTAMP L'ora nel formato RFC 3339 in cui viene aggiornato lo snapshot degli eventi.
manifest.viewName NULLABLE STRING Il nome della visualizzazione aggiornata.
manifest.location NULLABLE STRING La posizione di origine dei dati aggiornati.
eventTime NULLABLE STRING L'ora in cui si è verificato l'evento.
eventCode NULLABLE STRING Il codice evento associato alla voce corrispondente. Il codice evento 1 si riferisce all'aggiornamento della visualizzazione manifest.viewName con tutte le voci per la posizione di origine manifest.location all'interno dello snapshot manifest.snapshotTime.

Codici di errore

Puoi visualizzare i codici di errore nella visualizzazione error_attributes_view del set di dati collegato:

Nome colonna Modalità Tipo Descrizione
errorCode NULLABLE INTEGER Il codice di errore associato a questa voce. Per un elenco dei valori validi e come risolverli, consulta Risolvere i problemi relativi ai set di dati.
errorSource NULLABLE STRING L'origine dell'errore. Valore valido: CONFIGURATION_PREPROCESSING.
errorTime NULLABLE TIMESTAMP L'ora in cui si è verificato l'errore.
sourceGcsLocation NULLABLE STRING La posizione di Cloud Storage di origine dell'errore. Per i progetti, questo campo è nullo perché non hanno una posizione.
bucketErrorRecord.bucketName NULLABLE STRING Il nome del bucket coinvolto nell'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket.
bucketErrorRecord.serviceAccount NULLABLE STRING Il account di servizio che richiede l'autorizzazione per importare oggetti dal bucket. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket.
projectErrorRecord.projectNumber NULLABLE INTEGER Il numero del progetto coinvolto nell'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto.
projectErrorRecord.organizationName NULLABLE STRING Il numero dell'organizzazione a cui deve appartenere il progetto per essere elaborato. Un valore pari a 0 indica che il set di dati non si trova nell'organizzazione. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto.

Risolvere i problemi relativi agli errori del set di dati

Per scoprire come risolvere gli errori di elaborazione degli snapshot registrati nella visualizzazione error_attributes_view del set di dati collegato, consulta la seguente tabella:

Codice di errore Error Case Messaggio di errore Risoluzione dei problemi
1 Il progetto di origine non appartiene all'organizzazione Il progetto di origine projectErrorRecord.projectNumber non appartiene all'organizzazione projectErrorRecord.organizationName. Aggiungi il progetto di origine projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName. Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni.
2 Errore di autorizzazione del bucket Autorizzazione negata per l'importazione di oggetti per il bucket bucketErrorRecord.bucketName. Assegna all'account di servizio bucketErrorRecord.serviceAccount le autorizzazioni Identity and Access Management (IAM) per consentire l'importazione di oggetti per il bucket bucketErrorRecord.bucketName. Per maggiori informazioni, consulta Concedere le autorizzazioni richieste all'agente di servizio.
3 Il progetto di destinazione non appartiene all'organizzazione Il progetto di destinazione projectErrorRecord.projectNumber non si trova nell'organizzazione projectErrorRecord.organizationName. Aggiungi il progetto di destinazione projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName. Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni.
4 Il progetto di origine non ha Storage Intelligence configurato. Il progetto di origine projectErrorRecord.projectNumber non ha Storage Intelligence configurato. Configura Storage Intelligence per il progetto di origine projectErrorRecord.projectNumber. Per saperne di più, consulta Configurare e gestire Storage Intelligence.
5 Il bucket non ha Storage Intelligence configurato. Il bucket bucketErrorRecord.bucketName non ha Storage Intelligence configurato. Configura Storage Intelligence per il bucket bucketErrorRecord.bucketName. Per saperne di più, consulta Configurare e gestire Storage Intelligence.

Considerazioni

Considera quanto segue per le configurazioni dei set di dati:

  • Quando rinomini una cartella in un bucket con lo spazio dei nomi gerarchico abilitato, i nomi degli oggetti in quel bucket vengono aggiornati. Quando vengono importate dal set di dati collegato, queste istantanee degli oggetti vengono considerate nuove voci nei set di dati collegati.

  • I set di dati sono supportati solo in queste posizioni BigQuery.

Passaggi successivi