Storage Insights-Datasets

Mit der Funktion „Storage Insights-Datasets“ können Sie Ihre Daten im großen Maßstab analysieren, organisieren und verwalten. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aktualisieren möchten. Ein abfragbarer Metadatenindex für die enthaltenen Buckets und Objekte in diesen Projekten wird als verknüpftes BigQuery-Dataset zur Verfügung gestellt.

Wenn Sie Statistiken zu Ihren Cloud Storage-Ressourcen erhalten möchten, die nach BigQuery exportiert werden, verwenden Sie die Storage Insights-Datasets. Diese Erkenntnisse können Ihnen bei der Datenexploration, Kostenoptimierung, Durchsetzung der Sicherheit und Implementierung von Governance helfen. Storage Insights-Datasets sind eine exklusive Funktion, die nur über das Storage Intelligence-Abo verfügbar ist.

Übersicht

Ein Storage Insights-Dataset ist ein fortlaufender Snapshot von Metadaten für alle Buckets und Objekte in einem oder mehreren angegebenen Quellprojekten innerhalb einer Organisation. Mithilfe der Informationen, die von Datasets bereitgestellt werden, können Sie Ihre Cloud Storage-Daten besser nachvollziehen und regelmäßig prüfen.

Um ein Dataset zu erstellen, erstellen Sie zuerst eine Dataset-Konfiguration in einem Projekt. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner auswählen, die Buckets und Objekte enthalten, für die Sie die Metadaten aufrufen möchten. Mit der Dataset-Konfiguration werden täglich Datasets generiert. Sowohl Dataset-Konfigurationen als auch Datasets sind Ressourcen, die in Cloud Storage gespeichert werden.

Wenn Sie ein Dataset aufrufen möchten, müssen Sie es zuerst mit BigQuery verknüpfen.

Dataset-Konfigurationsattribute

Wenn Sie eine Dataset-Konfiguration erstellen, legen Sie diese Attribute des Datasets fest. Es kann bis zu 48 Stunden dauern, bis die ersten Daten als verknüpftes Dataset in BigQuery angezeigt werden, nachdem Sie das Dataset konfiguriert haben. Alle neu hinzugefügten Objekte oder Buckets sind im nächsten täglichen Snapshot enthalten.

  • Name: Ein Name, der zum Verweisen auf das Dataset verwendet wird. Namen werden als Kennung von Dataset-Konfigurationen verwendet und können nach dem Erstellen der Konfiguration nicht mehr geändert werden. Der Name kann bis zu 128 Zeichen mit Buchstaben, Ziffern und Unterstrichen enthalten. Der Name muss mit einem Buchstaben beginnen.

  • Beschreibung (optional): eine Beschreibung des Datensatzes. Sie können die Beschreibung jederzeit bearbeiten.

  • Dataset-Bereich: Ein Pflichtfeld, in dem Sie eine Organisation, Projekte oder Ordner angeben, die die Buckets und Objekte enthalten, für die Sie Metadaten benötigen. Sie können Projekte oder Ordner einzeln oder als CSV-Datei angeben, wobei jede Projekt- oder Ordnernummer in einer separaten Zeile stehen muss. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben. Datasets werden für den angegebenen Dataset-Bereich konfiguriert. Für jede Dataset-Konfiguration kann nur ein Dataset-Bereich angegeben werden. Sie können den Dataset-Bereich ändern, wenn Sie die Dataset-Konfiguration bearbeiten.

  • Bucket-Filter (optional): Filter, mit denen bestimmte Buckets anhand des Bucket-Namens oder der Regionen in den Datensatz ein- oder daraus ausgeschlossen werden.

  • Aufbewahrungszeitraum: Die Anzahl der Tage, für die das Dataset Daten erfasst und aufbewahrt, einschließlich des Erstellungsdatums des Datasets. Datasets werden alle 24 Stunden mit Metadaten aktualisiert und können Daten bis zu 90 Tage lang aufbewahren. Daten, die außerhalb des Aufbewahrungszeitraums erfasst werden, werden automatisch gelöscht. Angenommen, Sie haben ein Dataset am 1. Oktober 2023 erstellt und das Aufbewahrungszeitfenster auf 30 Tage festgelegt. Am 30. Oktober enthält der Datensatz die Daten der letzten 30 Tage, also vom 1. bis zum 30. Oktober. Am 31. Oktober enthält der Datensatz die Daten vom 2. bis zum 31. Oktober. Sie können den Aufbewahrungszeitraum jederzeit ändern.

  • Standort: Ein Speicherort für das Dataset und seine Daten. Beispiel: us-central1 Der Standort muss von BigQuery unterstützt werden. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, sofern Sie welche haben.

  • Dienst-Agent-Typ: entweder ein konfigurationsbezogener oder ein projektbezogener Dienst-Agent.

    Wenn Sie eine Dataset-Konfiguration erstellen, wird ein Dienst-Agent für Sie bereitgestellt. Damit der Dienst-Agent Datasets lesen kann, müssen ihm die erforderlichen Berechtigungen zum Lesen von Daten aus Cloud Storage-Buckets erteilt werden.

    Ein dienstbezogener Dienst-Agent kann auf Datasets zugreifen und diese schreiben, die aus allen Dataset-Konfigurationen im Projekt generiert werden. Wenn Sie beispielsweise mehrere Dataset-Konfigurationen in einem Projekt haben, müssen Sie dem projektbezogenen Dienst-Agent nur einmal die erforderlichen Berechtigungen erteilen, damit er Datasets für alle Dataset-Konfigurationen im Projekt lesen und schreiben kann. Weitere Informationen zu den Berechtigungen, die zum Lesen und Schreiben von Datasets erforderlich sind, finden Sie unter Berechtigungen. Wenn eine Dataset-Konfiguration gelöscht wird, wird der dienstbezogene Agent auf Projektebene nicht gelöscht.

    Ein dienstbezogenes Dienstkonto mit Konfigurationsbereich kann nur auf das Dataset zugreifen und Daten in das Dataset schreiben, das von der jeweiligen Dataset-Konfiguration generiert wird. Wenn Sie mehrere Dataset-Konfigurationen haben, müssen Sie jedem dienstkontobezogenen Dienst-Agent erforderliche Berechtigungen erteilen. Wenn eine Dataset-Konfiguration gelöscht wird, wird auch der dienstbezogene Dienst-Agent gelöscht.

Verknüpfen Sie das Dataset mit BigQuery, nachdem Sie eine Dataset-Konfiguration erstellt haben. Wenn Sie ein Dataset mit BigQuery verknüpfen, wird ein verknüpftes Dataset in BigQuery erstellt, das Sie abfragen können. Sie können das Dataset jederzeit verknüpfen oder die Verknüpfung aufheben.

Weitere Informationen zu den Attributen, die Sie beim Erstellen oder Aktualisieren einer Dataset-Konfiguration festlegen, finden Sie in der DatasetConfigs-Ressource in der JSON API-Dokumentation.

Unterstützte Standorte

Die folgenden BigQuery-Standorte werden für das Erstellen verknüpfter Datasets unterstützt:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

Dataset-Schema der Metadaten

Die folgenden Metadatenfelder sind in Datasets enthalten. Weitere Informationen zu BigQuery-Spaltenmodi finden Sie unter Modi. Die Spaltenmodi bestimmen, wie BigQuery die Daten speichert und abfragt.

Im Feld snapshotTime wird die Zeit der Aktualisierung des Bucket-Metadaten-Snapshots im RFC 3339-Format gespeichert.

Bucket-Metadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Bucket-Metadatenfelder in der Ressourcendarstellung für Buckets für die JSON API.

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* Die Tags des Buckets. Weitere Informationen finden Sie unter Cloud Resource Manager API.

Objektmetadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Objektmetadatenfelder in der Objektressourcendarstellung für die JSON API.

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

Projektmetadaten

Die Projektmetadaten werden als Ansicht mit dem Namen project_attributes_view im verknüpften Dataset bereitgestellt:

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

Dataset-Schema für Ereignisse und Fehler

Im verknüpften Dataset können Sie sich auch die Ereignisse und Fehler bei der Verarbeitung von Momentaufnahmen in den Ansichten events_view und error_attributes_view ansehen. Informationen zur Fehlerbehebung bei der Verarbeitung von Snapshots finden Sie unter Fehlerbehebung bei Datensatzfehlern.

Ereignisprotokoll

Sie können sich Ereignisprotokolle in der Ansicht events_view im verknüpften Dataset ansehen:

Spaltenname Modus Typ Beschreibung
manifest.snapshotTime NULLABLE TIMESTAMP Die Zeit im RFC 3339-Format, zu der der Snapshot der Ereignisse aktualisiert wird.
manifest.viewName NULLABLE STRING Der Name der Ansicht, die aktualisiert wurde.
manifest.location NULLABLE STRING Der Quellspeicherort der aktualisierten Daten.
eventTime NULLABLE STRING Die Zeit, zu der das Ereignis stattgefunden hat.
eventCode NULLABLE STRING Der Ereigniscode, der dem entsprechenden Eintrag zugeordnet ist. Der Ereigniscode 1 bezieht sich darauf, dass die Ansicht manifest.viewName mit allen Einträgen für den Quellspeicherort manifest.location im Snapshot manifest.snapshotTime aktualisiert wird.

Fehlercodes

Fehlercodes können Sie in der error_attributes_view-Ansicht im verknüpften Dataset aufrufen:

Spaltenname Modus Typ Beschreibung
errorCode NULLABLE INTEGER Der mit diesem Eintrag verknüpfte Fehlercode. Eine Liste der gültigen Werte und Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung bei Datasets.
errorSource NULLABLE STRING Die Quelle des Fehlers. Gültiger Wert: CONFIGURATION_PREPROCESSING.
errorTime NULLABLE TIMESTAMP Gibt an, wann der Fehler aufgetreten ist.
sourceGcsLocation NULLABLE STRING Der Cloud Storage-Quellspeicherort des Fehlers. Für Projekte ist dieses Feld „null“, da sie keinen Standort haben.
bucketErrorRecord.bucketName NULLABLE STRING Der Name des Buckets, der von dem Fehler betroffen ist. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
bucketErrorRecord.serviceAccount NULLABLE STRING Das Dienstkonto, das die Berechtigung zum Aufnehmen von Objekten aus dem Bucket benötigt. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
projectErrorRecord.projectNumber NULLABLE INTEGER Die Nummer des Projekts, das den Fehler verursacht hat. Anhand dieser Informationen können Sie Projektfehler beheben.
projectErrorRecord.organizationName NULLABLE STRING Die Nummer der Organisation, zu der das Projekt gehören muss, damit es verarbeitet werden kann. Der Wert 0 gibt an, dass sich das Dataset nicht in der Organisation befindet. Anhand dieser Informationen können Sie Projektfehler beheben.

Dataset-Fehler beheben

In der folgenden Tabelle finden Sie Informationen zur Fehlerbehebung bei der Verarbeitung von Snapshots, die in der Ansicht error_attributes_view im verknüpften Dataset protokolliert werden:

Fehlercode Fehlerfall Fehlermeldung Fehlerbehebung
1 Das Quellprojekt gehört nicht zur Organisation Das Quellprojekt projectErrorRecord.projectNumber gehört nicht zur Organisation projectErrorRecord.organizationName. Fügen Sie das Quellprojekt projectErrorRecord.projectNumber der Organisation projectErrorRecord.organizationName hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
2 Bucket-Autorisierungsfehler Berechtigung zum Aufnehmen von Objekten für Bucket bucketErrorRecord.bucketName verweigert. Gewähren Sie dem Dienstkonto bucketErrorRecord.serviceAccount IAM-Berechtigungen (Identity and Access Management), damit Objekte für den Bucket bucketErrorRecord.bucketName aufgenommen werden können. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für den Dienst-Agenten erteilen.
3 Das Zielprojekt gehört nicht zur Organisation Das Zielprojekt projectErrorRecord.projectNumber ist nicht in der Organisation projectErrorRecord.organizationName. Fügen Sie das Zielprojekt projectErrorRecord.projectNumber der Organisation projectErrorRecord.organizationName hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
4 Für das Quellprojekt ist Storage Intelligence nicht konfiguriert. Für das Quellprojekt projectErrorRecord.projectNumber ist Storage Intelligence nicht konfiguriert. Konfigurieren Sie Storage Intelligence für das Quellprojekt projectErrorRecord.projectNumber. Weitere Informationen finden Sie unter Storage Intelligence konfigurieren und verwalten.
5 Für den Bucket ist Storage Intelligence nicht konfiguriert. Für den Bucket bucketErrorRecord.bucketName ist Storage Intelligence nicht konfiguriert. Konfigurieren Sie Storage Intelligence für den Bucket bucketErrorRecord.bucketName. Weitere Informationen finden Sie unter Storage Intelligence konfigurieren und verwalten.

Hinweise

Beachten Sie Folgendes bei Dataset-Konfigurationen:

  • Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn diese Objekt-Snapshots vom verknüpften Dataset aufgenommen werden, gelten sie als neue Einträge in den verknüpften Datasets.

  • Datasets werden nur an diesen BigQuery-Standorten unterstützt.

Nächste Schritte