Storage Insights-Datasets

Mit der Storage Insights-Datensatzfunktion können Sie Ihre Daten im großen Maßstab analysieren, organisieren und verwalten. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aktualisieren möchten. Ein abfragbarer Metadatenindex für die enthaltenen Bucket und Objekte in diesen Projekten wird als BigQuery-verknüpftes Dataset verfügbar gemacht.

Wenn Sie Statistiken zu Ihren Cloud Storage-Ressourcen abrufen möchten, die nach BigQuery exportiert werden, verwenden Sie die Storage Insights-Datasets. Diese Informationen können Ihnen bei der explorativen Datenanalyse, der Kostenoptimierung, der Durchsetzung von Sicherheitsmaßnahmen und der Implementierung von Governance-Richtlinien helfen. Storage Insights-Datasets sind eine exklusive Funktion, die nur mit dem Abo Speicherinformationen verfügbar ist.

Übersicht

Ein Storage Insights-Dataset ist ein fortlaufender Snapshot der Metadaten für alle Buckets und Objekte in einem oder mehreren angegebenen Quellprojekten innerhalb einer Organisation. Anhand der Informationen aus Datasets können Sie Ihre Cloud Storage-Daten besser nachvollziehen und regelmäßig prüfen.

Um einen Datensatz zu erstellen, müssen Sie zuerst eine Datasetkonfiguration in einem Projekt erstellen. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aufrufen möchten. Die Dataset-Konfiguration generiert täglich Datasets. Sowohl Datasetkonfigurationen als auch Datasets sind Ressourcen, die in Cloud Storage gespeichert werden.

Wenn Sie ein Dataset aufrufen möchten, müssen Sie es zuerst mit BigQuery verknüpfen.

Konfigurationsattribute für Datensätze

Wenn Sie eine Datasetkonfiguration erstellen, legen Sie die folgenden Eigenschaften des Datasets fest:

  • Name: Ein Name, der sich auf das Dataset bezieht. Namen dienen als Kennung für Datensatzkonfigurationen und können nach dem Erstellen der Konfiguration nicht mehr geändert werden. Der Name kann bis zu 128 Zeichen mit Buchstaben, Ziffern und Unterstrichen enthalten. Der Name muss mit einem Buchstaben beginnen.

  • Beschreibung (optional): Eine Beschreibung des Datensatzes. Sie können die Beschreibung jederzeit bearbeiten.

  • Datensatzbereich: eine Organisation, Projekte oder Ordner, die die Buckets und Objekte enthalten, für die Sie Metadaten benötigen. Sie können Projekte oder Ordner einzeln oder als CSV-Datei angeben. Die Projekt- oder Ordnernummer muss dabei in einer separaten Zeile stehen. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben.

  • Bucket-Filter (optional): Mit diesen Filtern können Sie bestimmte Buckets nach Bucket-Namen oder nach Regionen in den Datensatz ein- oder ausschließen.

  • Aufbewahrungsdauer: Die Anzahl der Tage, für die Daten im Datensatz erfasst und aufbewahrt werden, einschließlich des Erstellungsdatums des Datensatzes. Datasets werden alle 24 Stunden mit Metadaten aktualisiert und können bis zu 90 Tage lang aufbewahrt werden. Daten, die außerhalb des Speicherzeitraums erfasst werden, werden automatisch gelöscht. Angenommen, Sie haben ein Dataset, das am 1. Oktober 2023 mit einem 30-tägigen Verweilfenster erstellt wurde. Am 30. Oktober enthält der Datensatz die Daten der letzten 30 Tage vom 1. bis zum 30. Oktober. Am 31. Oktober enthält der Datensatz die Daten vom 2. bis zum 31. Oktober. Sie können das Bindungsfenster jederzeit ändern.

  • Speicherort: Speicherort für das Dataset und seine Daten. Beispiel: us-central1 Der Speicherort muss von BigQuery unterstützt werden. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, falls Sie welche haben.

  • Dienst-Agent-Typ: entweder ein Dienst-Agent auf Konfigurationsebene oder ein Dienst-Agent auf Projektebene.

    Wenn Sie eine Datensatzkonfiguration erstellen, wird ein Dienst-Agent für Sie bereitgestellt. Damit Datensätze gelesen werden können, muss dem Dienst-Agent die erforderliche Berechtigung zum Lesen von Daten aus Cloud Storage-Buckets erteilt werden.

    Ein Dienst-Agent auf Projektebene kann auf Datasets zugreifen und diese schreiben, die aus allen Datasetkonfigurationen im Projekt generiert werden. Wenn Sie beispielsweise mehrere Datensatzkonfigurationen in einem Projekt haben, müssen Sie dem Dienst-Agent auf Projektebene nur einmal die erforderlichen Berechtigungen erteilen, damit er Datasets für alle Datensatzkonfigurationen im Projekt lesen und schreiben kann. Weitere Informationen zu den Berechtigungen zum Lesen und Schreiben von Datensätzen finden Sie unter Berechtigungen. Wenn eine Datasetkonfiguration gelöscht wird, wird der Dienst-Agent auf Projektebene nicht gelöscht.

    Ein Dienstagent auf Konfigurationsebene kann nur auf den Datensatz zugreifen und ihn schreiben, der von der jeweiligen Datensatzkonfiguration generiert wurde. Wenn Sie also mehrere Datensatzkonfigurationen haben, müssen Sie jedem Dienst-Agent auf Konfigurationsebene die erforderlichen Berechtigungen gewähren. Wenn eine Datensatzkonfiguration gelöscht wird, wird auch der Dienstagent auf Konfigurationsebene gelöscht.

Verknüpfen Sie das Dataset mit BigQuery, nachdem Sie eine Datasetkonfiguration erstellt haben. Wenn Sie ein Dataset mit BigQuery verknüpfen, wird ein verknüpftes Dataset in BigQuery für Abfragen erstellt. Sie können die Verknüpfung des Datensatzes jederzeit herstellen oder aufheben.

Weitere Informationen zu den Eigenschaften, die Sie beim Erstellen oder Aktualisieren einer Datensatzkonfiguration festlegen, finden Sie in der Ressource „DatasetConfigs“ in der JSON API-Dokumentation.

Unterstützte Standorte

Die folgenden BigQuery-Standorte werden für das Erstellen verknüpfter Datasets unterstützt:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

Dataset-Schema der Metadaten

Die folgenden Metadatenfelder sind in Datasets enthalten. Weitere Informationen zu BigQuery-Spaltenmodi finden Sie unter Modi. Die Spaltenmodi bestimmen, wie BigQuery die Daten speichert und abfragt.

Im Feld snapshotTime wird die Zeit der Aktualisierung des Bucket-Metadaten-Snapshots im RFC 3339-Format gespeichert.

Bucket-Metadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Bucket-Metadatenfelder in der Ressourcendarstellung von Buckets für die JSON API.

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* Die Tags des Buckets. Weitere Informationen finden Sie unter Cloud Resource Manager API.

Objektmetadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Objektmetadatenfelder in der Objektressourcendarstellung für die JSON API.

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

Projektmetadaten

Die Projektmetadaten werden im verknüpften Dataset als Datenansicht mit dem Namen project_attributes_view angezeigt:

Metadatenfeld Modus Typ
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

Datensatzschema für Ereignisse und Fehler

Im verknüpften Datenpool können Sie sich auch die Ereignisse und Fehler bei der Momentaufnahmenverarbeitung in den Ansichten events_view und error_attributes_view ansehen. Informationen zum Beheben von Fehlern bei der Snapshot-Verarbeitung finden Sie unter Fehlerbehebung bei Datensatzfehlern.

Ereignisprotokoll

Sie können sich Ereignisprotokolle in der events_view-Ansicht im verknüpften Datensatz ansehen:

Spaltenname Modus Typ Beschreibung
manifest.snapshotTime NULLABLE TIMESTAMP Die Zeit im RFC 3339-Format, zu der der Snapshot der Ereignisse aktualisiert wird.
manifest.viewName NULLABLE STRING Der Name der aktualisierten Ansicht.
manifest.location NULLABLE STRING Der Speicherort der aktualisierten Daten.
eventTime NULLABLE STRING Die Zeit, zu der das Ereignis stattgefunden hat.
eventCode NULLABLE STRING Der Ereigniscode, der dem entsprechenden Eintrag zugeordnet ist. Der Ereigniscode 1 bezieht sich auf die manifest.viewName-Ansicht, die mit allen Einträgen für den Quellstandort manifest.location im Snapshot manifest.snapshotTime aktualisiert wird.

Fehlercodes

Sie können sich Fehlercodes in der error_attributes_view-Ansicht im verknüpften Datenpool ansehen:

Spaltenname Modus Typ Beschreibung
errorCode NULLABLE INTEGER Der mit diesem Eintrag verknüpfte Fehlercode. Eine Liste der gültigen Werte und Informationen zur Behebung von Fehlern finden Sie unter Fehlerbehebung bei Datensatzfehlern.
errorSource NULLABLE STRING Die Quelle des Fehlers. Gültiger Wert: CONFIGURATION_PREPROCESSING.
errorTime NULLABLE TIMESTAMP Den Zeitpunkt, zu dem der Fehler aufgetreten ist.
sourceGcsLocation NULLABLE STRING Der Cloud Storage-Quellspeicherort des Fehlers. Bei Projekten ist dieses Feld leer, da sie keinen Standort haben.
bucketErrorRecord.bucketName NULLABLE STRING Der Name des Buckets, auf den sich der Fehler bezieht. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
bucketErrorRecord.serviceAccount NULLABLE STRING Das Dienstkonto, das die Berechtigung zum Aufnehmen von Objekten aus dem Bucket benötigt. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
projectErrorRecord.projectNumber NULLABLE INTEGER Die Nummer des Projekts, auf das sich der Fehler bezieht. Anhand dieser Informationen können Sie einen Projektfehler beheben.
projectErrorRecord.organizationName NULLABLE STRING Die Nummer der Organisation, der das Projekt zugewiesen sein muss, damit es verarbeitet werden kann. Der Wert 0 gibt an, dass sich das Dataset nicht in der Organisation befindet. Anhand dieser Informationen können Sie einen Projektfehler beheben.

Dataset-Fehler beheben

Informationen zum Beheben von Fehlern bei der Snapshot-Verarbeitung, die in der Ansicht error_attributes_view im verknüpften Datenpool protokolliert werden, finden Sie in der folgenden Tabelle:

Fehlercode Fehlerfall Fehlermeldung Fehlerbehebung
1 Das Quellprojekt gehört nicht zur Organisation Das Quellprojekt projectErrorRecord.projectNumber gehört nicht zur Organisation projectErrorRecord.organizationName. Fügen Sie der Organisation projectErrorRecord.organizationName das Quellprojekt projectErrorRecord.projectNumber hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
2 Fehler bei der Bucket-Autorisierung Berechtigung zum Aufnehmen von Objekten für Bucket bucketErrorRecord.bucketName verweigert. Gewähren Sie dem Dienstkonto bucketErrorRecord.serviceAccount IAM-Berechtigungen (Identity and Access Management), um die Aufnahme von Objekten für den Bucket bucketErrorRecord.bucketName zu ermöglichen. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für den Kundenservicemitarbeiter gewähren.
3 Das Zielprojekt gehört nicht zur Organisation Das Zielprojekt projectErrorRecord.projectNumber gehört nicht zur Organisation projectErrorRecord.organizationName. Fügen Sie das Zielprojekt projectErrorRecord.projectNumber der Organisation projectErrorRecord.organizationName hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
4 Für das Quellprojekt ist Storage Intelligence nicht konfiguriert. Für das Quellprojekt projectErrorRecord.projectNumber ist Storage Intelligence nicht konfiguriert. Konfigurieren Sie Storage Intelligence für das Quellprojekt projectErrorRecord.projectNumber. Weitere Informationen finden Sie unter Speicher-KI konfigurieren und verwalten.
5 Für den Bucket ist Storage Intelligence nicht konfiguriert. Für Bucket bucketErrorRecord.bucketName ist Storage Intelligence nicht konfiguriert. Konfigurieren Sie Storage Intelligence für den Bucket bucketErrorRecord.bucketName. Weitere Informationen finden Sie unter Speicher-KI konfigurieren und verwalten.

Hinweise

Beachten Sie Folgendes für Datensatzkonfigurationen:

  • Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn diese Objekt-Snapshots in den verknüpften Datensatz aufgenommen werden, gelten sie als neue Einträge in den verknüpften Datensätzen.

  • Datasets werden nur an diesen BigQuery-Standorten unterstützt.

Nächste Schritte