Mit der Storage Insights-Datensatzfunktion können Sie Ihre Daten im großen Maßstab analysieren, organisieren und verwalten. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aktualisieren möchten. Ein abfragbarer Metadatenindex für die enthaltenen Bucket und Objekte in diesen Projekten wird als BigQuery-verknüpftes Dataset verfügbar gemacht.
Wenn Sie Statistiken zu Ihren Cloud Storage-Ressourcen abrufen möchten, die nach BigQuery exportiert werden, verwenden Sie die Storage Insights-Datasets. Diese Informationen können Ihnen bei der explorativen Datenanalyse, der Kostenoptimierung, der Durchsetzung von Sicherheitsmaßnahmen und der Implementierung von Governance-Richtlinien helfen. Storage Insights-Datasets sind eine exklusive Funktion, die nur mit dem Abo Speicherinformationen verfügbar ist.
Übersicht
Ein Storage Insights-Dataset ist ein fortlaufender Snapshot der Metadaten für alle Buckets und Objekte in einem oder mehreren angegebenen Quellprojekten innerhalb einer Organisation. Anhand der Informationen aus Datasets können Sie Ihre Cloud Storage-Daten besser nachvollziehen und regelmäßig prüfen.
Um einen Datensatz zu erstellen, müssen Sie zuerst eine Datasetkonfiguration in einem Projekt erstellen. Sie können eine Organisation oder ein oder mehrere Projekte oder Ordner mit Buckets und Objekten auswählen, für die Sie die Metadaten aufrufen möchten. Die Dataset-Konfiguration generiert täglich Datasets. Sowohl Datasetkonfigurationen als auch Datasets sind Ressourcen, die in Cloud Storage gespeichert werden.
Wenn Sie ein Dataset aufrufen möchten, müssen Sie es zuerst mit BigQuery verknüpfen.
Konfigurationsattribute für Datensätze
Wenn Sie eine Datasetkonfiguration erstellen, legen Sie die folgenden Eigenschaften des Datasets fest:
Name: Ein Name, der sich auf das Dataset bezieht. Namen dienen als Kennung für Datensatzkonfigurationen und können nach dem Erstellen der Konfiguration nicht mehr geändert werden. Der Name kann bis zu 128 Zeichen mit Buchstaben, Ziffern und Unterstrichen enthalten. Der Name muss mit einem Buchstaben beginnen.
Beschreibung (optional): Eine Beschreibung des Datensatzes. Sie können die Beschreibung jederzeit bearbeiten.
Datensatzbereich: eine Organisation, Projekte oder Ordner, die die Buckets und Objekte enthalten, für die Sie Metadaten benötigen. Sie können Projekte oder Ordner einzeln oder als CSV-Datei angeben. Die Projekt- oder Ordnernummer muss dabei in einer separaten Zeile stehen. Sie können in einer Dataset-Konfiguration bis zu 10.000 Projekte oder Ordner angeben.
Bucket-Filter (optional): Mit diesen Filtern können Sie bestimmte Buckets nach Bucket-Namen oder nach Regionen in den Datensatz ein- oder ausschließen.
Aufbewahrungsdauer: Die Anzahl der Tage, für die Daten im Datensatz erfasst und aufbewahrt werden, einschließlich des Erstellungsdatums des Datensatzes. Datasets werden alle 24 Stunden mit Metadaten aktualisiert und können bis zu 90 Tage lang aufbewahrt werden. Daten, die außerhalb des Speicherzeitraums erfasst werden, werden automatisch gelöscht. Angenommen, Sie haben ein Dataset, das am 1. Oktober 2023 mit einem 30-tägigen Verweilfenster erstellt wurde. Am 30. Oktober enthält der Datensatz die Daten der letzten 30 Tage vom 1. bis zum 30. Oktober. Am 31. Oktober enthält der Datensatz die Daten vom 2. bis zum 31. Oktober. Sie können das Bindungsfenster jederzeit ändern.
Speicherort: Speicherort für das Dataset und seine Daten. Beispiel:
us-central1
Der Speicherort muss von BigQuery unterstützt werden. Wir empfehlen, den Speicherort Ihrer BigQuery-Tabellen auszuwählen, falls Sie welche haben.Dienst-Agent-Typ: entweder ein Dienst-Agent auf Konfigurationsebene oder ein Dienst-Agent auf Projektebene.
Wenn Sie eine Datensatzkonfiguration erstellen, wird ein Dienst-Agent für Sie bereitgestellt. Damit Datensätze gelesen werden können, muss dem Dienst-Agent die erforderliche Berechtigung zum Lesen von Daten aus Cloud Storage-Buckets erteilt werden.
Ein Dienst-Agent auf Projektebene kann auf Datasets zugreifen und diese schreiben, die aus allen Datasetkonfigurationen im Projekt generiert werden. Wenn Sie beispielsweise mehrere Datensatzkonfigurationen in einem Projekt haben, müssen Sie dem Dienst-Agent auf Projektebene nur einmal die erforderlichen Berechtigungen erteilen, damit er Datasets für alle Datensatzkonfigurationen im Projekt lesen und schreiben kann. Weitere Informationen zu den Berechtigungen zum Lesen und Schreiben von Datensätzen finden Sie unter Berechtigungen. Wenn eine Datasetkonfiguration gelöscht wird, wird der Dienst-Agent auf Projektebene nicht gelöscht.
Ein Dienstagent auf Konfigurationsebene kann nur auf den Datensatz zugreifen und ihn schreiben, der von der jeweiligen Datensatzkonfiguration generiert wurde. Wenn Sie also mehrere Datensatzkonfigurationen haben, müssen Sie jedem Dienst-Agent auf Konfigurationsebene die erforderlichen Berechtigungen gewähren. Wenn eine Datensatzkonfiguration gelöscht wird, wird auch der Dienstagent auf Konfigurationsebene gelöscht.
Verknüpfen Sie das Dataset mit BigQuery, nachdem Sie eine Datasetkonfiguration erstellt haben. Wenn Sie ein Dataset mit BigQuery verknüpfen, wird ein verknüpftes Dataset in BigQuery für Abfragen erstellt. Sie können die Verknüpfung des Datensatzes jederzeit herstellen oder aufheben.
Weitere Informationen zu den Eigenschaften, die Sie beim Erstellen oder Aktualisieren einer Datensatzkonfiguration festlegen, finden Sie in der Ressource „DatasetConfigs“ in der JSON API-Dokumentation.
Unterstützte Standorte
Die folgenden BigQuery-Standorte werden für das Erstellen verknüpfter Datasets unterstützt:
EU
US
asia-southeast1
europe-west1
us-central1
us-east1
us-east4
Dataset-Schema der Metadaten
Die folgenden Metadatenfelder sind in Datasets enthalten. Weitere Informationen zu BigQuery-Spaltenmodi finden Sie unter Modi. Die Spaltenmodi bestimmen, wie BigQuery die Daten speichert und abfragt.
Im Feld snapshotTime
wird die Zeit der Aktualisierung des Bucket-Metadaten-Snapshots im RFC 3339-Format gespeichert.
Bucket-Metadaten
Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Bucket-Metadatenfelder in der Ressourcendarstellung von Buckets für die JSON API.
Metadatenfeld | Modus | Typ |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
project |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
versioning |
NULLABLE |
BOOLEAN |
lifecycle |
NULLABLE |
BOOLEAN |
metageneration |
NULLABLE |
INTEGER |
timeCreated |
NULLABLE |
TIMESTAMP |
public |
NULLABLE |
RECORD |
public.bucketPolicyOnly |
NULLABLE |
BOOLEAN |
public.publicAccessPrevention |
NULLABLE |
STRING |
autoclass |
NULLABLE |
RECORD |
autoclass.enabled |
NULLABLE |
BOOLEAN |
autoclass.toggleTime |
NULLABLE |
TIMESTAMP |
softDeletePolicy |
NULLABLE |
OBJECT |
softDeletePolicy.effectiveTime |
NULLABLE |
DATETIME |
softDeletePolicy.retentionDurationSeconds |
NULLABLE |
LONG |
tags* |
NULLABLE |
RECORD |
tags.lastUpdatedTime |
NULLABLE |
TIMESTAMP |
tags.tagMap |
REPEATED |
RECORD |
tags.tagMap.key |
NULLABLE |
STRING |
tags.tagMap.value |
NULLABLE |
STRING |
labels |
REPEATED |
RECORD |
labels.key |
NULLABLE |
STRING |
labels.value |
NULLABLE |
STRING |
* Die Tags des Buckets. Weitere Informationen finden Sie unter Cloud Resource Manager API.
Objektmetadaten
Sofern nicht anders angegeben, finden Sie detailliertere Beschreibungen der folgenden Objektmetadatenfelder in der Objektressourcendarstellung für die JSON API.
Metadatenfeld | Modus | Typ |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
bucket |
NULLABLE |
STRING |
location |
NULLABLE |
STRING |
componentCount |
NULLABLE |
INTEGER |
contentDisposition |
NULLABLE |
STRING |
contentEncoding |
NULLABLE |
STRING |
contentLanguage |
NULLABLE |
STRING |
contentType |
NULLABLE |
STRING |
crc32c |
NULLABLE |
INTEGER |
customTime |
NULLABLE |
TIMESTAMP |
etag |
NULLABLE |
STRING |
eventBasedHold |
NULLABLE |
BOOLEAN |
generation |
NULLABLE |
INTEGER |
md5Hash |
NULLABLE |
STRING |
mediaLink |
NULLABLE |
STRING |
metageneration |
NULLABLE |
INTEGER |
name |
NULLABLE |
STRING |
selfLink |
NULLABLE |
STRING |
size |
NULLABLE |
INTEGER |
storageClass |
NULLABLE |
STRING |
temporaryHold |
NULLABLE |
BOOLEAN |
timeCreated |
NULLABLE |
TIMESTAMP |
timeDeleted |
NULLABLE |
TIMESTAMP |
updated |
NULLABLE |
TIMESTAMP |
timeStorageClassUpdated |
NULLABLE |
TIMESTAMP |
retentionExpirationTime |
NULLABLE |
TIMESTAMP |
softDeleteTime |
NULLABLE |
DATETIME |
hardDeleteTime |
NULLABLE |
DATETIME |
metadata |
REPEATED |
RECORD |
metadata.key |
NULLABLE |
STRING |
metadata.value |
NULLABLE |
STRING |
Projektmetadaten
Die Projektmetadaten werden im verknüpften Dataset als Datenansicht mit dem Namen project_attributes_view
angezeigt:
Metadatenfeld | Modus | Typ |
---|---|---|
snapshotTime |
NULLABLE |
TIMESTAMP |
name |
NULLABLE |
STRING |
id |
NULLABLE |
STRING |
number |
NULLABLE |
NUMBER |
Datensatzschema für Ereignisse und Fehler
Im verknüpften Datenpool können Sie sich auch die Ereignisse und Fehler bei der Momentaufnahmenverarbeitung in den Ansichten events_view
und error_attributes_view
ansehen. Informationen zum Beheben von Fehlern bei der Snapshot-Verarbeitung finden Sie unter Fehlerbehebung bei Datensatzfehlern.
Ereignisprotokoll
Sie können sich Ereignisprotokolle in der events_view
-Ansicht im verknüpften Datensatz ansehen:
Spaltenname | Modus | Typ | Beschreibung |
---|---|---|---|
manifest.snapshotTime |
NULLABLE |
TIMESTAMP |
Die Zeit im RFC 3339-Format, zu der der Snapshot der Ereignisse aktualisiert wird. |
manifest.viewName |
NULLABLE |
STRING |
Der Name der aktualisierten Ansicht. |
manifest.location |
NULLABLE |
STRING |
Der Speicherort der aktualisierten Daten. |
eventTime |
NULLABLE |
STRING |
Die Zeit, zu der das Ereignis stattgefunden hat. |
eventCode |
NULLABLE |
STRING |
Der Ereigniscode, der dem entsprechenden Eintrag zugeordnet ist. Der Ereigniscode 1 bezieht sich auf die manifest.viewName -Ansicht, die mit allen Einträgen für den Quellstandort manifest.location im Snapshot manifest.snapshotTime aktualisiert wird. |
Fehlercodes
Sie können sich Fehlercodes in der error_attributes_view
-Ansicht im verknüpften Datenpool ansehen:
Spaltenname | Modus | Typ | Beschreibung |
---|---|---|---|
errorCode |
NULLABLE |
INTEGER |
Der mit diesem Eintrag verknüpfte Fehlercode. Eine Liste der gültigen Werte und Informationen zur Behebung von Fehlern finden Sie unter Fehlerbehebung bei Datensatzfehlern. |
errorSource |
NULLABLE |
STRING |
Die Quelle des Fehlers. Gültiger Wert: CONFIGURATION_PREPROCESSING . |
errorTime |
NULLABLE |
TIMESTAMP |
Den Zeitpunkt, zu dem der Fehler aufgetreten ist. |
sourceGcsLocation |
NULLABLE |
STRING |
Der Cloud Storage-Quellspeicherort des Fehlers. Bei Projekten ist dieses Feld leer, da sie keinen Standort haben. |
bucketErrorRecord.bucketName |
NULLABLE |
STRING |
Der Name des Buckets, auf den sich der Fehler bezieht. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben. |
bucketErrorRecord.serviceAccount |
NULLABLE |
STRING |
Das Dienstkonto, das die Berechtigung zum Aufnehmen von Objekten aus dem Bucket benötigt. Anhand dieser Informationen können Sie einen Bucket-Fehler beheben. |
projectErrorRecord.projectNumber |
NULLABLE |
INTEGER |
Die Nummer des Projekts, auf das sich der Fehler bezieht. Anhand dieser Informationen können Sie einen Projektfehler beheben. |
projectErrorRecord.organizationName |
NULLABLE |
STRING |
Die Nummer der Organisation, der das Projekt zugewiesen sein muss, damit es verarbeitet werden kann. Der Wert 0 gibt an, dass sich das Dataset nicht in der Organisation befindet. Anhand dieser Informationen können Sie einen Projektfehler beheben. |
Dataset-Fehler beheben
Informationen zum Beheben von Fehlern bei der Snapshot-Verarbeitung, die in der Ansicht error_attributes_view
im verknüpften Datenpool protokolliert werden, finden Sie in der folgenden Tabelle:
Fehlercode | Fehlerfall | Fehlermeldung | Fehlerbehebung |
---|---|---|---|
1 | Das Quellprojekt gehört nicht zur Organisation | Das Quellprojekt projectErrorRecord.projectNumber gehört nicht zur Organisation projectErrorRecord.organizationName . |
Fügen Sie der Organisation projectErrorRecord.organizationName das Quellprojekt projectErrorRecord.projectNumber hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren. |
2 | Fehler bei der Bucket-Autorisierung | Berechtigung zum Aufnehmen von Objekten für Bucket bucketErrorRecord.bucketName verweigert. |
Gewähren Sie dem Dienstkonto bucketErrorRecord.serviceAccount IAM-Berechtigungen (Identity and Access Management), um die Aufnahme von Objekten für den Bucket bucketErrorRecord.bucketName zu ermöglichen. Weitere Informationen finden Sie unter Erforderliche Berechtigungen für den Kundenservicemitarbeiter gewähren. |
3 | Das Zielprojekt gehört nicht zur Organisation | Das Zielprojekt projectErrorRecord.projectNumber gehört nicht zur Organisation projectErrorRecord.organizationName . |
Fügen Sie das Zielprojekt projectErrorRecord.projectNumber der Organisation projectErrorRecord.organizationName hinzu. Eine Anleitung zum Migrieren eines Projekts zwischen Organisationen finden Sie unter Projekte zwischen Organisationen migrieren. |
4 | Für das Quellprojekt ist Storage Intelligence nicht konfiguriert. | Für das Quellprojekt projectErrorRecord.projectNumber ist Storage Intelligence nicht konfiguriert. |
Konfigurieren Sie Storage Intelligence für das Quellprojekt projectErrorRecord.projectNumber . Weitere Informationen finden Sie unter Speicher-KI konfigurieren und verwalten. |
5 | Für den Bucket ist Storage Intelligence nicht konfiguriert. | Für Bucket bucketErrorRecord.bucketName ist Storage Intelligence nicht konfiguriert. |
Konfigurieren Sie Storage Intelligence für den Bucket bucketErrorRecord.bucketName . Weitere Informationen finden Sie unter Speicher-KI konfigurieren und verwalten. |
Hinweise
Beachten Sie Folgendes für Datensatzkonfigurationen:
Wenn Sie einen Ordner in einem Bucket mit aktiviertem hierarchischen Namespace umbenennen, werden die Objektnamen in diesem Bucket aktualisiert. Wenn diese Objekt-Snapshots in den verknüpften Datensatz aufgenommen werden, gelten sie als neue Einträge in den verknüpften Datensätzen.
Datasets werden nur an diesen BigQuery-Standorten unterstützt.
Nächste Schritte
- Verwenden Sie Storage Insights-Datasets.
- Weitere Informationen zu Storage Intelligence
- SQL-Abfragen auf die Datasets in BigQuery ausführen
- Weitere Informationen zu BigQuery-Analysen