儲存空間分析資料集

「儲存空間分析」資料集功能可協助您大規模瞭解、整理及管理資料。您可以選擇機構,或一或多個包含要更新中繼資料的 bucket 和物件的專案或資料夾。系統會提供可查詢的後設資料索引,適用於這些專案中包含的 bucket 和物件,並以 BigQuery 連結資料集的形式提供。

如要取得匯出至 BigQuery 的 Cloud Storage 資源洞察資料,請使用 Storage Insights 資料集。這些洞察資料可協助您探索資料、調整支出、強制執行安全性措施,以及實作治理措施。儲存空間分析資料集是專屬功能,僅供 Storage Intelligence 訂閱者使用。

總覽

儲存空間洞察資料集是機構內一或多個指定來源專案中,所有值區和物件的中繼資料的滾動快照。透過資料集提供的資訊,您可以更瞭解及定期稽核 Cloud Storage 資料。

如要建立資料集,請先在專案中建立資料集設定。 您可以選擇機構,或一或多個包含要查看中繼資料的 bucket 和物件的專案或資料夾。資料集設定每天都會產生資料集。資料集設定和資料集都是儲存在 Cloud Storage 中的資源。

如要查看資料集,請先將資料集連結至 BigQuery

資料集設定屬性

建立資料集設定時,您會設定資料集的這些屬性。設定資料集後,最多可能需要 48 小時,您才能在 BigQuery 中看到第一個填入的資料,也就是連結的資料集。下次每日快照會包含所有新加入的物件或值區。

  • 名稱:用於參照資料集的名稱。名稱會做為資料集設定的 ID,且設定建立後即無法變更。名稱最多可包含 128 個字元,且只能使用英文字母、數字和底線。名稱開頭必須為字母。

  • 說明 (選填):資料集說明。你隨時可以編輯說明。

  • 資料集範圍:必要欄位,指定包含您要取得中繼資料的值區和物件的機構、專案或資料夾。您可以個別指定專案或資料夾,也可以使用 CSV 檔案指定,每個專案或資料夾編號各占一行。一個資料集設定最多可指定 10,000 個專案或資料夾。資料集是為指定資料集範圍設定。每個資料集設定只能指定一個資料集範圍。編輯資料集設定時,您可以更新資料集範圍。

  • Bucket 篩選器 (選用):用於依 bucket 名稱或區域,在資料集中納入和排除特定 bucket。

  • 保留期限:資料集擷取及保留資料的天數,包括資料集的建立日期。資料集每 24 小時會更新中繼資料,最多可保留 90 天的資料。系統會自動刪除保留期限外的資料。舉例來說,假設您在 2023 年 10 月 1 日建立資料集,並將保留期設為 30 天。10 月 30 日的資料集會反映過去 30 天的資料,也就是 10 月 1 日至 10 月 30 日的資料。10 月 31 日的資料集會反映 10 月 2 日至 10 月 31 日的資料。您隨時可以修改保留期限。

  • 位置:儲存資料集及其資料的位置。例如:us-central1BigQuery 必須支援該位置。建議您選取 BigQuery 資料表的位置 (如有)。

  • 服務代理類型:特定設定的服務代理或特定專案的服務代理。

    建立資料集設定時,系統會為您佈建服務代理。如要讀取資料集,必須授予服務代理從 Cloud Storage 值區讀取資料的必要權限。

    專案範圍的服務代理可以存取及寫入專案中所有資料集設定產生的資料集。舉例來說,如果專案內有多個資料集設定,您只需要為專案範圍的服務代理程式授予必要權限一次,該代理程式就能讀取及寫入專案內所有資料集設定的資料集。如要進一步瞭解讀取及寫入資料集所需的權限,請參閱「權限」。刪除資料集設定時,系統不會刪除專案範圍的服務代理程式。

    設定範圍服務代理只能存取及寫入特定資料集設定產生的資料集。也就是說,如果您有多個資料集設定,就必須為每個設定範圍的服務代理程式授予必要權限。刪除資料集設定時,系統會刪除設定範圍內的服務代理程式。

建立資料集設定後,請將資料集連結至 BigQuery。將資料集連結至 BigQuery 後,系統會在 BigQuery 中建立連結的資料集,供您查詢。你隨時可以連結或取消連結資料集。

如要進一步瞭解建立或更新資料集設定時設定的屬性,請參閱 JSON API 說明文件中的 DatasetConfigs 資源

支援的地點

建立連結資料集時,系統支援下列 BigQuery 位置:

  • EU
  • US
  • asia-southeast1
  • europe-west1
  • us-central1
  • us-east1
  • us-east4

中繼資料的資料集結構定義

資料集包含下列中繼資料欄位。如要進一步瞭解 BigQuery 資料欄模式,請參閱「模式」。欄模式會決定 BigQuery 儲存及查詢資料的方式。

snapshotTime 欄位會以 RFC 3339 格式儲存 bucket 中繼資料快照的重新整理時間。

值區中繼資料

除非另有說明,否則如要查看下列值區中繼資料欄位的詳細說明,請參閱 JSON API 的值區資源表示法

中繼資料欄位 模式 類型
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
location NULLABLE STRING
project NULLABLE INTEGER
storageClass NULLABLE STRING
versioning NULLABLE BOOLEAN
lifecycle NULLABLE BOOLEAN
metageneration NULLABLE INTEGER
timeCreated NULLABLE TIMESTAMP
public NULLABLE RECORD
public.bucketPolicyOnly NULLABLE BOOLEAN
public.publicAccessPrevention NULLABLE STRING
autoclass NULLABLE RECORD
autoclass.enabled NULLABLE BOOLEAN
autoclass.toggleTime NULLABLE TIMESTAMP
softDeletePolicy NULLABLE OBJECT
softDeletePolicy.effectiveTime NULLABLE DATETIME
softDeletePolicy.retentionDurationSeconds NULLABLE LONG
tags* NULLABLE RECORD
tags.lastUpdatedTime NULLABLE TIMESTAMP
tags.tagMap REPEATED RECORD
tags.tagMap.key NULLABLE STRING
tags.tagMap.value NULLABLE STRING
labels REPEATED RECORD
labels.key NULLABLE STRING
labels.value NULLABLE STRING

* bucket 的標記。 詳情請參閱 Cloud Resource Manager API

物件中繼資料

除非另有說明,否則如要查看下列物件中繼資料欄位的詳細說明,請參閱 JSON API 的物件資源表示法

中繼資料欄位 模式 類型
snapshotTime NULLABLE TIMESTAMP
bucket NULLABLE STRING
location NULLABLE STRING
componentCount NULLABLE INTEGER
contentDisposition NULLABLE STRING
contentEncoding NULLABLE STRING
contentLanguage NULLABLE STRING
contentType NULLABLE STRING
crc32c NULLABLE INTEGER
customTime NULLABLE TIMESTAMP
etag NULLABLE STRING
eventBasedHold NULLABLE BOOLEAN
generation NULLABLE INTEGER
md5Hash NULLABLE STRING
metageneration NULLABLE INTEGER
name NULLABLE STRING
size NULLABLE INTEGER
storageClass NULLABLE STRING
temporaryHold NULLABLE BOOLEAN
timeCreated NULLABLE TIMESTAMP
timeDeleted NULLABLE TIMESTAMP
updated NULLABLE TIMESTAMP
timeStorageClassUpdated NULLABLE TIMESTAMP
retentionExpirationTime NULLABLE TIMESTAMP
softDeleteTime NULLABLE DATETIME
hardDeleteTime NULLABLE DATETIME
metadata REPEATED RECORD
metadata.key NULLABLE STRING
metadata.value NULLABLE STRING

專案中繼資料

專案中繼資料會以 project_attributes_view 名稱的檢視區塊形式,顯示在連結的資料集中:

中繼資料欄位 模式 類型
snapshotTime NULLABLE TIMESTAMP
name NULLABLE STRING
id NULLABLE STRING
number NULLABLE NUMBER

事件和錯誤的資料集結構定義

在連結的資料集中,您也可以在 events_viewerror_attributes_view 檢視畫面中查看快照處理事件和錯誤。如要瞭解如何排解快照處理錯誤,請參閱「排解資料集錯誤」。

事件記錄

您可以在連結資料集的 events_view 檢視畫面中查看事件記錄:

資料欄名稱 模式 類型 說明
manifest.snapshotTime NULLABLE TIMESTAMP 事件快照的重新整理時間,採用 RFC 3339 格式
manifest.viewName NULLABLE STRING 重新整理的檢視畫面名稱。
manifest.location NULLABLE STRING 重新整理資料的來源位置。
eventTime NULLABLE STRING 事件發生的時間。
eventCode NULLABLE STRING 與對應項目相關聯的事件代碼。事件代碼 1 是指 檢視畫面已重新整理,並顯示快照 manifest.snapshotTime 中來源位置 manifest.location 的所有項目。manifest.viewName

錯誤代碼

您可以在連結資料集的 error_attributes_view 檢視畫面中查看錯誤代碼:

資料欄名稱 模式 類型 說明
errorCode NULLABLE INTEGER 與這個項目相關的錯誤代碼。如需有效值清單和解決方法,請參閱「排解資料集錯誤」。
errorSource NULLABLE STRING 錯誤來源。有效值:CONFIGURATION_PREPROCESSING
errorTime NULLABLE TIMESTAMP 錯誤發生時間。
sourceGcsLocation NULLABLE STRING 發生錯誤的來源 Cloud Storage 位置。專案沒有位置資訊,因此這個欄位為空值。
bucketErrorRecord.bucketName NULLABLE STRING 發生錯誤的值區名稱。您可以使用這項資訊偵錯 bucket 錯誤。
bucketErrorRecord.serviceAccount NULLABLE STRING 需要從 bucket 擷取物件的服務帳戶。您可以使用這項資訊偵錯 bucket 錯誤。
projectErrorRecord.projectNumber NULLABLE INTEGER 發生錯誤的專案數量。您可以利用這項資訊偵錯專案錯誤。
projectErrorRecord.organizationName NULLABLE STRING 專案必須屬於的機構數量,才能進行處理。如果值為 0,表示資料集不在機構中。您可以利用這項資訊偵錯專案錯誤。

排解資料集錯誤

如要瞭解如何排解記錄在連結資料集 error_attributes_view 檢視畫面中的快照處理錯誤,請參閱下表:

錯誤代碼 錯誤案例 錯誤訊息 疑難排解
1 來源專案不屬於該機構 來源專案 projectErrorRecord.projectNumber 不屬於機構 projectErrorRecord.organizationName 將來源專案 projectErrorRecord.projectNumber 新增至機構 projectErrorRecord.organizationName。如要瞭解如何在機構之間遷移專案,請參閱「在機構之間遷移專案」一文。
2 Bucket 授權錯誤 權限遭拒,無法擷取 bucket bucketErrorRecord.bucketName 的物件。 授予服務帳戶 bucketErrorRecord.serviceAccount 身分與存取權管理 (IAM) 權限,允許擷取值區 bucketErrorRecord.bucketName 的物件。詳情請參閱「將必要權限授予服務代理」。
3 目的地專案不屬於該機構 目的地專案 projectErrorRecord.projectNumber 不屬於機構 projectErrorRecord.organizationName 將目的地專案 projectErrorRecord.projectNumber 新增至機構 projectErrorRecord.organizationName。如要瞭解如何在機構之間遷移專案,請參閱「在機構之間遷移專案」一文。
4 來源專案未設定 Storage Intelligence。 來源專案 projectErrorRecord.projectNumber 未設定 Storage Intelligence。 為來源專案設定 Storage Intelligence projectErrorRecord.projectNumber。詳情請參閱「設定及管理儲存空間智慧功能」。
5 Bucket 未設定 Storage Intelligence。 Bucket bucketErrorRecord.bucketName 未設定 Storage Intelligence。 為 bucket bucketErrorRecord.bucketName 設定 Storage Intelligence。詳情請參閱「設定及管理儲存空間智慧功能」。

注意事項

設定資料集時,請注意下列事項:

  • 在啟用階層命名空間的 bucket 中重新命名資料夾時,該 bucket 中的物件名稱會更新。連結資料集擷取這些物件快照時,會將其視為連結資料集中的新項目。

  • 資料集僅支援這些 BigQuery 位置

後續步驟