La funzionalità dei set di dati di Storage Insights ti aiuta a comprendere, organizzare e gestire i tuoi dati su larga scala. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti per cui vuoi aggiornare i metadati. Un indice dei metadati interrogabile per i bucket e gli oggetti inclusi in questi progetti viene reso disponibile come set di dati collegato a BigQuery.
Se vuoi ottenere insight per le tue risorse Cloud Storage esportate in BigQuery, utilizza i set di dati Storage Insights. Queste informazioni possono aiutarti con l'esplorazione dei dati, l'ottimizzazione dei costi, l'applicazione della sicurezza e l'implementazione della governance. I set di dati di Storage Insights sono una funzionalità esclusiva disponibile solo tramite l'abbonamento a Storage Intelligence.
Panoramica
Un set di dati Storage Insights è uno snapshot cumulativo dei metadati di tutti i bucket e gli oggetti all'interno di uno o più progetti di origine specificati all'interno di un'organizzazione. Le informazioni fornite dai set di dati ti consentono di comprendere meglio e controllare regolarmente i tuoi dati di Cloud Storage.
Per creare un set di dati, devi prima creare una configurazione del set di dati in un progetto. Puoi scegliere un'organizzazione o uno o più progetti o cartelle contenenti bucket e oggetti di cui vuoi visualizzare i metadati. La configurazione del set di dati genera set di dati ogni giorno. Sia le configurazioni dei set di dati sia i set di dati sono risorse archiviate in Cloud Storage.
Per visualizzare un set di dati, devi prima collegarlo a BigQuery.
Proprietà di configurazione del set di dati
Quando crei una configurazione del set di dati, imposti queste proprietà del set di dati. Potrebbero essere necessarie fino a 48 ore prima che i primi dati vengano visualizzati come set di dati collegato in BigQuery dopo la configurazione del set di dati. Gli eventuali oggetti o bucket appena aggiunti vengono inclusi nello snapshot giornaliero successivo.
Nome: un nome utilizzato come riferimento al set di dati. I nomi vengono utilizzati come identificatore delle configurazioni del set di dati e non possono essere modificati dopo la creazione della configurazione. Il nome contiene fino a 128 caratteri tra cui lettere, numeri e trattini bassi. Il nome deve iniziare con una lettera.
(Facoltativo) Descrizione: una descrizione del set di dati. Puoi modificare la descrizione in qualsiasi momento.
Ambito del set di dati: un campo obbligatorio che specifica un'organizzazione, progetti o cartelle contenenti i bucket e gli oggetti per i quali vuoi i metadati. Puoi specificare progetti o cartelle singolarmente o come file CSV, con ogni progetto o numero di cartella su una riga separata. Puoi specificare fino a 10.000 progetti o cartelle in una configurazione del set di dati. I set di dati sono configurati per l'ambito del set di dati specificato. Per ogni configurazione del set di dati può essere specificato un solo ambito del set di dati. Puoi aggiornare l'ambito del set di dati quando modifichi la configurazione del set di dati.
Filtri dei bucket (facoltativo): filtri utilizzati per includere ed escludere bucket specifici dal set di dati in base al nome del bucket o alle regioni.
Periodo di conservazione: il numero di giorni per cui il set di dati acquisisce e conserva i dati, inclusa la data di creazione del set di dati. I set di dati vengono aggiornati con i metadati ogni 24 ore e possono conservare i dati per un massimo di 90 giorni. I dati acquisiti al di fuori della finestra di conservazione vengono eliminati automaticamente. Ad esempio, supponi di avere un set di dati creato il 1° ottobre 2023 con un periodo di conservazione impostato su 30. Il 30 ottobre, il set di dati rifletterà i dati degli ultimi 30 giorni, dal 1° al 30 ottobre. Il 31 ottobre, il set di dati rifletterà i dati dal 2 al 31 ottobre. Puoi modificare il periodo di conservazione in qualsiasi momento.
Posizione: una posizione in cui archiviare il set di dati e i relativi dati. Ad esempio,
us-central1
. La località deve essere supportata da BigQuery. Ti consigliamo di selezionare la posizione delle tue tabelle BigQuery, se ne hai.Tipo di agente di servizio: un agente di servizio con ambito a livello di configurazione o un agente di servizio con ambito a livello di progetto.
La creazione di una configurazione del set di dati esegue il provisioning di un service agent per te. Per leggere i set di dati, all'agente di servizio devono essere concesse le autorizzazioni necessarie per leggere i dati dai bucket Cloud Storage.
Un agente di servizio con ambito progetto può accedere e scrivere set di dati generati da tutte le configurazioni del set di dati nel progetto. Ad esempio, se hai più configurazioni di set di dati all'interno di un progetto, devi concedere le autorizzazioni richieste all'agente di servizio con ambito progetto una sola volta per consentirgli di leggere e scrivere set di dati per tutte le configurazioni di set di dati all'interno del progetto. Per ulteriori informazioni sulle autorizzazioni necessarie per leggere e scrivere set di dati, vedi Autorizzazioni. Quando viene eliminata una configurazione del set di dati, l'agente di servizio con ambito progetto non viene eliminato.
Un agente di servizio con ambito di configurazione può accedere e scrivere solo il set di dati generato dalla particolare configurazione del set di dati. Ciò significa che se hai più configurazioni di set di dati, dovrai concedere le autorizzazioni richieste a ogni agente di servizio con ambito di configurazione. Quando viene eliminata una configurazione del set di dati, viene eliminato anche l'agente di servizio con ambito di configurazione.
Collega il set di dati a BigQuery dopo aver creato una configurazione del set di dati. Il collegamento di un set di dati a BigQuery crea un set di dati collegato in BigQuery per le query. Puoi collegare o scollegare il set di dati in qualsiasi momento.
Per saperne di più sulle proprietà che imposti durante la creazione o l'aggiornamento di una configurazione del set di dati, consulta la risorsa DatasetConfigs nella documentazione dell'API JSON.
Località supportate
Per la creazione di set di dati collegati sono supportate le seguenti località BigQuery:
EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4
Schema di set di dati dei metadati
I seguenti campi di metadati sono inclusi nei set di dati. Per ulteriori informazioni sulle modalità delle colonne BigQuery, vedi Modalità. Le modalità delle colonne determinano in che modo BigQuery archivia ed esegue query sui dati.
Il campo snapshotTime
memorizza l'ora dell'aggiornamento dello snapshot dei metadati del bucket
nel formato RFC 3339.
Metadati del bucket
Se non diversamente indicato, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati dei bucket facendo riferimento alla rappresentazione della risorsa Buckets per l'API JSON.
Campo metadati | Modalità | Tipo |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
project |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
versioning |
NULLABLE |
BOOLEAN |
lifecycle |
NULLABLE |
BOOLEAN |
metageneration |
NULLABLE |
INTEGER |
timeCreated |
NULLABLE |
TIMESTAMP |
public |
NULLABLE |
RECORD |
public.bucketPolicyOnly |
NULLABLE |
BOOLEAN |
public.publicAccessPrevention |
NULLABLE |
STRING |
autoclass |
NULLABLE |
RECORD |
autoclass.enabled |
NULLABLE |
BOOLEAN |
autoclass.toggleTime |
NULLABLE |
TIMESTAMP |
softDeletePolicy |
NULLABLE |
OBJECT |
softDeletePolicy.effectiveTime |
NULLABLE |
DATETIME |
softDeletePolicy.retentionDurationSeconds |
NULLABLE |
LONG |
tags* |
NULLABLE |
RECORD |
tags.lastUpdatedTime |
NULLABLE |
TIMESTAMP |
tags.tagMap |
REPEATED |
RECORD |
tags.tagMap.key |
NULLABLE |
STRING |
tags.tagMap.value |
NULLABLE |
STRING |
labels |
REPEATED |
RECORD |
labels.key |
NULLABLE |
STRING |
labels.value |
NULLABLE |
STRING |
* I tag del bucket. Per saperne di più, consulta la pagina API Cloud Resource Manager.
Metadati degli oggetti
Se non diversamente indicato, puoi trovare descrizioni più dettagliate dei seguenti campi dei metadati degli oggetti facendo riferimento alla rappresentazione della risorsa Oggetti per l'API JSON.
Campo metadati | Modalità | Tipo |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
bucket |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
componentCount |
NULLABLE |
INTEGER |
contentDisposition |
NULLABLE |
STRING |
contentEncoding |
NULLABLE |
STRING |
contentLanguage |
NULLABLE |
STRING |
contentType |
NULLABLE |
STRING |
crc32c |
NULLABLE |
INTEGER |
customTime |
NULLABLE |
TIMESTAMP |
etag |
NULLABLE |
STRING |
eventBasedHold |
NULLABLE |
BOOLEAN |
generation |
NULLABLE |
INTEGER |
md5Hash |
NULLABLE |
STRING |
mediaLink |
NULLABLE |
STRING |
metageneration |
NULLABLE |
INTEGER |
name |
NULLABLE |
STRING |
selfLink |
NULLABLE |
STRING |
size |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
temporaryHold |
NULLABLE |
BOOLEAN |
timeCreated |
NULLABLE |
TIMESTAMP |
timeDeleted |
NULLABLE |
TIMESTAMP |
updated |
NULLABLE |
TIMESTAMP |
timeStorageClassUpdated |
NULLABLE |
TIMESTAMP |
retentionExpirationTime |
NULLABLE |
TIMESTAMP |
softDeleteTime |
NULLABLE |
DATETIME |
hardDeleteTime |
NULLABLE |
DATETIME |
metadata |
REPEATED |
RECORD |
metadata.key |
NULLABLE |
STRING |
metadata.value |
NULLABLE |
STRING |
Metadati di progetto
I metadati del progetto vengono esposti come una vista denominata project_attributes_view
nel
set di dati collegato:
Campo metadati | Modalità | Tipo |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
id |
NULLABLE |
STRING |
number |
NULLABLE |
NUMBER |
Schema del set di dati per eventi ed errori
Nel set di dati collegato, puoi anche visualizzare gli eventi di elaborazione degli snapshot e
gli errori nelle visualizzazioni events_view
e error_attributes_view
. Per scoprire come
risolvere i problemi relativi agli errori di elaborazione degli snapshot, consulta Risolvere i problemi relativi agli errori del set di dati.
Log eventi
Puoi visualizzare i log degli eventi nella visualizzazione events_view
del set di dati collegato:
Nome colonna | Modalità | Tipo | Descrizione |
---|---|---|---|
manifest.snapshotTime |
NULLABLE |
TIMESTAMP |
L'ora nel formato RFC 3339 in cui viene aggiornato lo snapshot degli eventi. |
manifest.viewName |
NULLABLE |
STRING |
Il nome della visualizzazione aggiornata. |
manifest.location |
NULLABLE |
STRING |
La posizione di origine dei dati aggiornati. |
eventTime |
NULLABLE |
STRING |
L'ora in cui si è verificato l'evento. |
eventCode |
NULLABLE |
STRING |
Il codice evento associato alla voce corrispondente. Il codice evento
1 si riferisce all'aggiornamento della visualizzazione manifest.viewName con tutte
le voci per la posizione di origine manifest.location all'interno dello snapshot
manifest.snapshotTime . |
Codici di errore
Puoi visualizzare i codici di errore nella visualizzazione error_attributes_view
del set di dati collegato:
Nome colonna | Modalità | Tipo | Descrizione |
---|---|---|---|
errorCode |
NULLABLE |
INTEGER |
Il codice di errore associato a questa voce. Per un elenco dei valori validi e come risolverli, consulta Risolvere i problemi relativi ai set di dati. |
errorSource |
NULLABLE |
STRING |
L'origine dell'errore. Valore valido: CONFIGURATION_PREPROCESSING . |
errorTime |
NULLABLE |
TIMESTAMP |
L'ora in cui si è verificato l'errore. |
sourceGcsLocation |
NULLABLE |
STRING |
La posizione di Cloud Storage di origine dell'errore. Per i progetti, questo campo è nullo perché non hanno una posizione. |
bucketErrorRecord.bucketName |
NULLABLE |
STRING |
Il nome del bucket coinvolto nell'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket. |
bucketErrorRecord.serviceAccount |
NULLABLE |
STRING |
Il account di servizio che richiede l'autorizzazione per importare oggetti dal bucket. Puoi utilizzare queste informazioni per eseguire il debug di un errore del bucket. |
projectErrorRecord.projectNumber |
NULLABLE |
INTEGER |
Il numero del progetto coinvolto nell'errore. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto. |
projectErrorRecord.organizationName |
NULLABLE |
STRING |
Il numero dell'organizzazione a cui deve appartenere il progetto per essere elaborato. Un valore pari a 0 indica che il set di dati non si trova nell'organizzazione. Puoi utilizzare queste informazioni per eseguire il debug di un errore del progetto. |
Risolvere i problemi relativi agli errori del set di dati
Per scoprire come risolvere gli errori di elaborazione degli snapshot registrati nella visualizzazione error_attributes_view
del set di dati collegato, consulta la seguente tabella:
Codice di errore | Error Case | Messaggio di errore | Risoluzione dei problemi |
---|---|---|---|
1 | Il progetto di origine non appartiene all'organizzazione | Il progetto di origine projectErrorRecord.projectNumber non appartiene all'organizzazione projectErrorRecord.organizationName . |
Aggiungi il progetto di origine projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName . Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni. |
2 | Errore di autorizzazione del bucket | Autorizzazione negata per l'importazione di oggetti per il bucket bucketErrorRecord.bucketName . |
Assegna all'account di servizio bucketErrorRecord.serviceAccount le autorizzazioni Identity and Access Management (IAM) per consentire l'importazione di oggetti per il bucket bucketErrorRecord.bucketName . Per maggiori informazioni, consulta Concedere le autorizzazioni richieste all'agente di servizio. |
3 | Il progetto di destinazione non appartiene all'organizzazione | Il progetto di destinazione projectErrorRecord.projectNumber non si trova nell'organizzazione projectErrorRecord.organizationName . |
Aggiungi il progetto di destinazione projectErrorRecord.projectNumber all'organizzazione projectErrorRecord.organizationName . Per istruzioni su come eseguire la migrazione di un progetto tra organizzazioni, consulta Eseguire la migrazione dei progetti tra organizzazioni. |
4 | Il progetto di origine non ha Storage Intelligence configurato. | Il progetto di origine projectErrorRecord.projectNumber non ha Storage Intelligence configurato. |
Configura Storage Intelligence per il progetto di origine projectErrorRecord.projectNumber . Per saperne di più, consulta Configurare e gestire Storage Intelligence. |
5 | Il bucket non ha Storage Intelligence configurato. | Il bucket bucketErrorRecord.bucketName non ha Storage Intelligence configurato. |
Configura Storage Intelligence per il bucket bucketErrorRecord.bucketName . Per saperne di più, consulta Configurare e gestire Storage Intelligence. |
Considerazioni
Considera quanto segue per le configurazioni dei set di dati:
Quando rinomini una cartella in un bucket con lo spazio dei nomi gerarchico abilitato, i nomi degli oggetti in quel bucket vengono aggiornati. Quando vengono importate dal set di dati collegato, queste istantanee degli oggetti vengono considerate nuove voci nei set di dati collegati.
I set di dati sono supportati solo in queste posizioni BigQuery.
Passaggi successivi
- Utilizza i set di dati Storage Insights.
- Scopri di più su Storage Intelligence.
- Esegui query SQL sui set di dati in BigQuery.
- Scopri di più su BigQuery Analytics.