Diese Seite wurde von der Cloud Translation API übersetzt.

Storage Insights-Datasets

Mit der Funktion „Storage Insights-Datasets“ können Sie Ihre Daten im großen Maßstab analysieren, organisieren und verwalten. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aktualisieren möchten. Ein abfragbarer Metadatenindex für die enthaltenen Buckets und Objekte in diesen Projekten wird als verknüpftes BigQuery-Dataset zur Verfügung gestellt.

Wenn Sie Statistiken zu Ihren Cloud Storage-Ressourcen erhalten möchten, die nach BigQuery exportiert werden, verwenden Sie die Storage Insights-Datasets. Diese Erkenntnisse können Ihnen bei der Datenexploration, Kostenoptimierung, Durchsetzung der Sicherheit und Implementierung von Governance helfen. Storage Insights-Datasets sind eine exklusive Funktion, die nur über das Storage Intelligence-Abo verfügbar ist.

Übersicht

Ein Storage Insights-Dataset ist ein fortlaufender Snapshot von Metadaten für alle Buckets und Objekte in einem oder mehreren angegebenen Quellprojekten innerhalb einer Organisation. Mithilfe der Informationen, die von Datasets bereitgestellt werden, können Sie Ihre Cloud Storage-Daten besser nachvollziehen und regelmäßig prüfen.

Um ein Dataset zu erstellen, erstellen Sie zuerst eine Dataset-Konfiguration in einem Projekt. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner auswählen, die Buckets und Objekte enthalten, für die Sie die Metadaten aufrufen möchten. Mit der Dataset-Konfiguration werden täglich Datasets generiert. Sowohl Dataset-Konfigurationen als auch Datasets sind Ressourcen, die in Cloud Storage gespeichert werden.

Wenn Sie ein Dataset aufrufen möchten, müssen Sie es zuerst mit BigQuery verknüpfen.

Dataset-Konfigurationsattribute

Wenn Sie eine Dataset-Konfiguration erstellen, legen Sie diese Attribute des Datasets fest. Es kann bis zu 48 Stunden dauern, bis die ersten Daten als verknüpftes Dataset in BigQuery angezeigt werden, nachdem Sie das Dataset konfiguriert haben. Alle neu hinzugefügten Objekte oder Buckets sind im nächsten täglichen Snapshot enthalten.

Name: Ein Name, der zum Verweisen auf das Dataset verwendet wird. Namen werden als Kennung von Dataset-Konfigurationen verwendet und können nach dem Erstellen der Konfiguration nicht mehr geändert werden. Der Name kann bis zu 128 Zeichen mit Buchstaben, Ziffern und Unterstrichen enthalten. Der Name muss mit einem Buchstaben beginnen.
Beschreibung (optional): eine Beschreibung des Datensatzes. Sie können die Beschreibung jederzeit bearbeiten.
Dataset-Bereich: Ein Pflichtfeld, in dem Sie eine Organisation, Projekte oder Ordner angeben, die die Buckets und Objekte enthalten, für die Sie Metadaten benötigen. Sie können Projekte oder Ordner einzeln oder als CSV-Datei angeben, wobei jede Projekt- oder Ordnernummer in einer separaten Zeile stehen muss. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben. Datasets werden für den angegebenen Dataset-Bereich konfiguriert. Für jede Dataset-Konfiguration kann nur ein Dataset-Bereich angegeben werden. Sie können den Dataset-Bereich ändern, wenn Sie die Dataset-Konfiguration bearbeiten.
Bucket-Filter (optional): Filter, mit denen bestimmte Buckets anhand des Bucket-Namens oder der Regionen in den Datensatz ein- oder daraus ausgeschlossen werden.
Aufbewahrungszeitraum: Die Anzahl der Tage, für die das Dataset Daten erfasst und aufbewahrt, einschließlich des Erstellungsdatums des Datasets. Datasets werden alle 24 Stunden mit Metadaten aktualisiert und können Daten bis zu 90 Tage lang aufbewahren. Daten, die außerhalb des Aufbewahrungszeitraums erfasst werden, werden automatisch gelöscht. Angenommen, Sie haben ein Dataset am 1. Oktober 2023 erstellt und das Aufbewahrungszeitfenster auf 30 Tage festgelegt. Am 30. Oktober enthält der Datensatz die Daten der letzten 30 Tage, also vom 1. bis zum 30. Oktober. Am 31. Oktober enthält der Datensatz die Daten vom 2. bis zum 31. Oktober. Sie können den Aufbewahrungszeitraum jederzeit ändern.
Standort: Ein Speicherort für das Dataset und seine Daten. Beispiel: us-central1 Der Standort muss von BigQuery unterstützt werden. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, sofern Sie welche haben.
Dienst-Agent-Typ: entweder ein konfigurationsbezogener oder ein projektbezogener Dienst-Agent.

Wenn Sie eine Dataset-Konfiguration erstellen, wird ein Dienst-Agent für Sie bereitgestellt. Damit der Dienst-Agent Datasets lesen kann, müssen ihm die erforderlichen Berechtigungen zum Lesen von Daten aus Cloud Storage-Buckets erteilt werden.

Ein dienstbezogener Dienst-Agent kann auf Datasets zugreifen und diese schreiben, die aus allen Dataset-Konfigurationen im Projekt generiert werden. Wenn Sie beispielsweise mehrere Dataset-Konfigurationen in einem Projekt haben, müssen Sie dem projektbezogenen Dienst-Agent nur einmal die erforderlichen Berechtigungen erteilen, damit er Datasets für alle Dataset-Konfigurationen im Projekt lesen und schreiben kann. Weitere Informationen zu den Berechtigungen, die zum Lesen und Schreiben von Datasets erforderlich sind, finden Sie unter Berechtigungen. Wenn eine Dataset-Konfiguration gelöscht wird, wird der dienstbezogene Agent auf Projektebene nicht gelöscht.

Ein dienstbezogenes Dienstkonto mit Konfigurationsbereich kann nur auf das Dataset zugreifen und Daten in das Dataset schreiben, das von der jeweiligen Dataset-Konfiguration generiert wird. Wenn Sie mehrere Dataset-Konfigurationen haben, müssen Sie jedem dienstkontobezogenen Dienst-Agent erforderliche Berechtigungen erteilen. Wenn eine Dataset-Konfiguration gelöscht wird, wird auch der dienstbezogene Dienst-Agent gelöscht.

Verknüpfen Sie das Dataset mit BigQuery, nachdem Sie eine Dataset-Konfiguration erstellt haben. Wenn Sie ein Dataset mit BigQuery verknüpfen, wird ein verknüpftes Dataset in BigQuery erstellt, das Sie abfragen können. Sie können das Dataset jederzeit verknüpfen oder die Verknüpfung aufheben.

Weitere Informationen zu den Attributen, die Sie beim Erstellen oder Aktualisieren einer Dataset-Konfiguration festlegen, finden Sie in der DatasetConfigs-Ressource in der JSON API-Dokumentation.

Unterstützte Standorte

Die folgenden BigQuery-Standorte werden für das Erstellen verknüpfter Datasets unterstützt:

EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4

Dataset-Schema der Metadaten

Die folgenden Metadatenfelder sind in Datasets enthalten. Weitere Informationen zu BigQuery-Spaltenmodi finden Sie unter Modi. Die Spaltenmodi bestimmen, wie BigQuery die Daten speichert und abfragt.

Im Feld snapshotTime wird die Zeit der Aktualisierung des Bucket-Metadaten-Snapshots im RFC 3339-Format gespeichert.

Bucket-Metadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Bucket-Metadatenfelder in der Ressourcendarstellung für Buckets für die JSON API.

Metadatenfeld	Modus	Typ
`snapshotTime`	`NULLABLE`	`TIMESTAMP`
`name`	`NULLABLE`	`STRING`
`location`	`NULLABLE`	`STRING`
`project`	`NULLABLE`	`INTEGER`
`storageClass`	`NULLABLE`	`STRING`
`versioning`	`NULLABLE`	`BOOLEAN`
`lifecycle`	`NULLABLE`	`BOOLEAN`
`metageneration`	`NULLABLE`	`INTEGER`
`timeCreated`	`NULLABLE`	`TIMESTAMP`
`public`	`NULLABLE`	`RECORD`
`public.bucketPolicyOnly`	`NULLABLE`	`BOOLEAN`
`public.publicAccessPrevention`	`NULLABLE`	`STRING`
`autoclass`	`NULLABLE`	`RECORD`
`autoclass.enabled`	`NULLABLE`	`BOOLEAN`
`autoclass.toggleTime`	`NULLABLE`	`TIMESTAMP`
`softDeletePolicy`	`NULLABLE`	`OBJECT`
`softDeletePolicy.effectiveTime`	`NULLABLE`	`DATETIME`
`softDeletePolicy.retentionDurationSeconds`	`NULLABLE`	`LONG`
`tags^*`	`NULLABLE`	`RECORD`
`tags.lastUpdatedTime`	`NULLABLE`	`TIMESTAMP`
`tags.tagMap`	`REPEATED`	`RECORD`
`tags.tagMap.key`	`NULLABLE`	`STRING`
`tags.tagMap.value`	`NULLABLE`	`STRING`
`labels`	`REPEATED`	`RECORD`
`labels.key`	`NULLABLE`	`STRING`
`labels.value`	`NULLABLE`	`STRING`

^* Die Tags des Buckets. Weitere Informationen finden Sie unter Cloud Resource Manager API.

Objektmetadaten

Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Objektmetadatenfelder in der Objektressourcendarstellung für die JSON API.

Metadatenfeld	Modus	Typ
`snapshotTime`	`NULLABLE`	`TIMESTAMP`
`bucket`	`NULLABLE`	`STRING`
`location`	`NULLABLE`	`STRING`
`componentCount`	`NULLABLE`	`INTEGER`
`contentDisposition`	`NULLABLE`	`STRING`
`contentEncoding`	`NULLABLE`	`STRING`
`contentLanguage`	`NULLABLE`	`STRING`
`contentType`	`NULLABLE`	`STRING`
`crc32c`	`NULLABLE`	`INTEGER`
`customTime`	`NULLABLE`	`TIMESTAMP`
`etag`	`NULLABLE`	`STRING`
`eventBasedHold`	`NULLABLE`	`BOOLEAN`
`generation`	`NULLABLE`	`INTEGER`
`md5Hash`	`NULLABLE`	`STRING`
`mediaLink`	`NULLABLE`	`STRING`
`metageneration`	`NULLABLE`	`INTEGER`
`name`	`NULLABLE`	`STRING`
`selfLink`	`NULLABLE`	`STRING`
`size`	`NULLABLE`	`INTEGER`
`storageClass`	`NULLABLE`	`STRING`
`temporaryHold`	`NULLABLE`	`BOOLEAN`
`timeCreated`	`NULLABLE`	`TIMESTAMP`
`timeDeleted`	`NULLABLE`	`TIMESTAMP`
`updated`	`NULLABLE`	`TIMESTAMP`
`timeStorageClassUpdated`	`NULLABLE`	`TIMESTAMP`
`retentionExpirationTime`	`NULLABLE`	`TIMESTAMP`
`softDeleteTime`	`NULLABLE`	`DATETIME`
`hardDeleteTime`	`NULLABLE`	`DATETIME`
`metadata`	`REPEATED`	`RECORD`
`metadata.key`	`NULLABLE`	`STRING`
`metadata.value`	`NULLABLE`	`STRING`

Projektmetadaten

Die Projektmetadaten werden als Ansicht mit dem Namen project_attributes_view im verknüpften Dataset bereitgestellt:

Metadatenfeld	Modus	Typ
`snapshotTime`	`NULLABLE`	`TIMESTAMP`
`name`	`NULLABLE`	`STRING`
`id`	`NULLABLE`	`STRING`
`number`	`NULLABLE`	`NUMBER`

Dataset-Schema für Ereignisse und Fehler

Im verknüpften Dataset können Sie sich auch die Ereignisse und Fehler bei der Verarbeitung von Momentaufnahmen in den Ansichten events_view und error_attributes_view ansehen. Informationen zur Fehlerbehebung bei der Verarbeitung von Snapshots finden Sie unter Fehlerbehebung bei Datensatzfehlern.

Ereignisprotokoll

Sie können sich Ereignisprotokolle in der Ansicht events_view im verknüpften Dataset ansehen:

Spaltenname	Modus	Typ	Beschreibung
`manifest.snapshotTime`	`NULLABLE`	`TIMESTAMP`	Die Zeit im RFC 3339-Format, zu der der Snapshot der Ereignisse aktualisiert wird.
`manifest.viewName`	`NULLABLE`	`STRING`	Der Name der Ansicht, die aktualisiert wurde.
`manifest.location`	`NULLABLE`	`STRING`	Der Quellspeicherort der aktualisierten Daten.
`eventTime`	`NULLABLE`	`STRING`	Die Zeit, zu der das Ereignis stattgefunden hat.
`eventCode`	`NULLABLE`	`STRING`	Der Ereigniscode, der dem entsprechenden Eintrag zugeordnet ist. Der Ereigniscode `1` bezieht sich darauf, dass die Ansicht `manifest.viewName` mit allen Einträgen für den Quellspeicherort `manifest.location` im Snapshot `manifest.snapshotTime` aktualisiert wird.

Fehlercodes

Fehlercodes können Sie in der error_attributes_view-Ansicht im verknüpften Dataset aufrufen:

Spaltenname	Modus	Typ	Beschreibung
`errorCode`	`NULLABLE`	`INTEGER`	Der mit diesem Eintrag verknüpfte Fehlercode. Eine Liste der gültigen Werte und Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung bei Datasets.
`errorSource`	`NULLABLE`	`STRING`	Die Quelle des Fehlers. Gültiger Wert: `CONFIGURATION_PREPROCESSING`.
`errorTime`	`NULLABLE`	`TIMESTAMP`	Gibt an, wann der Fehler aufgetreten ist.
`sourceGcsLocation`	`NULLABLE`	`STRING`	Der Cloud Storage-Quellspeicherort des Fehlers. Für Projekte ist dieses Feld „null“, da sie keinen Standort haben.
`bucketErrorRecord.bucketName`	`NULLABLE`	`STRING`	Der Name des Buckets, der von dem Fehler betroffen ist. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
`bucketErrorRecord.serviceAccount`	`NULLABLE`	`STRING`	Das Dienstkonto, das die Berechtigung zum Aufnehmen von Objekten aus dem Bucket benötigt. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben.
`projectErrorRecord.projectNumber`	`NULLABLE`	`INTEGER`	Die Nummer des Projekts, das den Fehler verursacht hat. Anhand dieser Informationen können Sie Projektfehler beheben.
`projectErrorRecord.organizationName`	`NULLABLE`	`STRING`	Die Nummer der Organisation, zu der das Projekt gehören muss, damit es verarbeitet werden kann. Der Wert `0` gibt an, dass sich das Dataset nicht in der Organisation befindet. Anhand dieser Informationen können Sie Projektfehler beheben.

Dataset-Fehler beheben

In der folgenden Tabelle finden Sie Informationen zur Fehlerbehebung bei der Verarbeitung von Snapshots, die in der Ansicht error_attributes_view im verknüpften Dataset protokolliert werden:

Fehlercode	Fehlerfall	Fehlermeldung	Fehlerbehebung
1	Das Quellprojekt gehört nicht zur Organisation	Das Quellprojekt `projectErrorRecord.projectNumber` gehört nicht zur Organisation `projectErrorRecord.organizationName`.	Fügen Sie das Quellprojekt `projectErrorRecord.projectNumber` der Organisation `projectErrorRecord.organizationName` hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
2	Bucket-Autorisierungsfehler	Berechtigung zum Aufnehmen von Objekten für Bucket `bucketErrorRecord.bucketName` verweigert.	Gewähren Sie dem Dienstkonto `bucketErrorRecord.serviceAccount` IAM-Berechtigungen (Identity and Access Management), damit Objekte für den Bucket `bucketErrorRecord.bucketName` aufgenommen werden können. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für den Dienst-Agenten erteilen.
3	Das Zielprojekt gehört nicht zur Organisation	Das Zielprojekt `projectErrorRecord.projectNumber` ist nicht in der Organisation `projectErrorRecord.organizationName`.	Fügen Sie das Zielprojekt `projectErrorRecord.projectNumber` der Organisation `projectErrorRecord.organizationName` hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren.
4	Für das Quellprojekt ist Storage Intelligence nicht konfiguriert.	Für das Quellprojekt `projectErrorRecord.projectNumber` ist Storage Intelligence nicht konfiguriert.	Konfigurieren Sie Storage Intelligence für das Quellprojekt `projectErrorRecord.projectNumber`. Weitere Informationen finden Sie unter Storage Intelligence konfigurieren und verwalten.
5	Für den Bucket ist Storage Intelligence nicht konfiguriert.	Für den Bucket `bucketErrorRecord.bucketName` ist Storage Intelligence nicht konfiguriert.	Konfigurieren Sie Storage Intelligence für den Bucket `bucketErrorRecord.bucketName`. Weitere Informationen finden Sie unter Storage Intelligence konfigurieren und verwalten.

Hinweise

Beachten Sie Folgendes bei Dataset-Konfigurationen:

Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn diese Objekt-Snapshots vom verknüpften Dataset aufgenommen werden, gelten sie als neue Einträge in den verknüpften Datasets.
Datasets werden nur an diesen BigQuery-Standorten unterstützt.