關於資料剖析

Dataplex 通用目錄資料剖析功能可協助您找出 BigQuery 資料表中資料欄的常見統計特徵。這項資訊有助您更有效率地瞭解及分析資料。

常見資料值、資料分布和空值計數等資訊,有助於加快分析作業。結合資料分類功能後,資料剖析功能就能偵測資料類別或機密資訊,進而啟用存取控管政策。

Dataplex 通用目錄也會使用這項資訊,推薦資料品質檢查規則

概念模型

您可以透過建立資料剖析掃描作業,進一步瞭解資料的剖析檔。

下圖顯示 Dataplex 通用目錄如何掃描資料,以便回報統計特徵。

資料剖析掃描會分析資料表資料,以便回報統計特徵。

資料剖析掃描作業會與一個 BigQuery 資料表建立關聯,並掃描該資料表以產生資料剖析結果。資料剖析掃描支援多種設定選項

設定選項

本節說明執行資料剖析掃描作業時可用的設定選項。

排程選項

您可以透過 API 或 Google Cloud 控制台,依照指定的頻率或需求排程資料剖析掃描作業。

範圍

您可以將工作範圍指定為下列任一選項,這也是資料剖析掃描作業規格的一部分:

  • 完整表格:在資料剖析掃描中掃描整個表格。在計算剖析統計資料之前,系統會先在整個資料表上套用取樣、資料列篩選器和資料欄篩選器。

  • 逐步:系統會在資料剖析掃描作業中掃描您指定的逐步資料。在表格中指定要用於增量計算的 DateTimestamp 欄。通常,這是用來將資料表分區的資料欄。系統會在計算剖析統計資料前,先對增量資料套用取樣、列篩選器和欄篩選器。

篩選資料

您可以使用資料列篩選器和資料欄篩選器,篩選要掃描以進行剖析的資料。使用篩選器可縮短執行時間和成本,並排除機密和無用的資料。

  • 資料列篩選器:資料列篩選器可讓您著重於特定時間範圍或特定區隔 (例如區域) 內的資料。例如,您可以篩除時間戳記在特定日期之前的資料。

  • 資料欄篩選器:資料欄篩選器可讓您在表格中加入或排除特定資料欄,以便執行資料分析掃描。

範例資料

Dataplex Universal Catalog 可讓您指定要從資料中抽取的記錄百分比,以便執行資料分析掃描作業。在較小的資料樣本上建立資料剖析掃描,可減少查詢整個資料集的執行時間和成本。

多項資料剖析掃描

您可以使用 Google Cloud 控制台,透過 Dataplex Universal Catalog 一次建立多項資料剖析掃描作業。您最多可從一個資料集選取 100 個資料表,並為每個資料集建立資料剖析掃描作業。瞭解詳情

將掃描結果匯出至 BigQuery 資料表

您可以將資料剖析掃描結果匯出至 BigQuery 資料表,以便進一步分析。如要自訂報表,您可以將 BigQuery 表格資料連結至 Looker 資訊主頁。您可以使用多個掃描作業的相同結果表格,建立匯總報表。

資料剖析結果

資料剖析結果包含下列值:

資料欄類型 資料剖析結果
數值資料欄
  • 空值百分比。
  • 大約不重複值的百分比。
  • 資料欄中前 10 個最常見的值。如果欄中的不重複值數量少於 10 個 (不含空值),則可少於 10 個。對於每個最常見的值,系統會顯示在目前掃描的資料中,該值出現的百分比。
  • 平均值、標準差、最小值、大約下四分位數、大約中位數、大約上四分位數和最大值。
字串欄
  • 空值百分比。
  • 大約不重複值的百分比。
  • 欄中 10 個最常見的值,如果欄中的不重複值數量少於 10 個,則可能少於 10 個。
  • 字串的平均、最小和最大長度。
其他非巢狀資料欄 (日期、時間、時間戳記、二進位元資料等)
  • 空值百分比。
  • 大約不重複值的百分比。
  • 欄中前 10 個最常見的值,如果欄中的不重複值數量少於 10 個,則可能少於 10 個。
所有其他巢狀或複雜資料類型資料欄 (例如記錄、陣列、JSON),或任何採用「重複」模式的資料欄。
  • 空值百分比。

結果包含每次執行掃描的記錄數量。

回報與監控

您可以使用下列報表和方法監控及分析資料分析結果:

  • 在 BigQuery 和 Dataplex 通用目錄頁面中,使用來源資料表發布的報表

    如果您已設定資料剖析掃描作業,以便在Google Cloud 控制台的 BigQuery 和 Dataplex 通用目錄頁面中發布結果,您就可以在任何專案的「資料剖析」分頁中,查看這些頁面中的最新資料剖析掃描結果。

    已發布的報表。

  • Dataplex 通用目錄中的歷來報表 (每個工作)

    您可以在 Dataplex Universal Catalog 的「Profile」頁面中,查看最新和歷史工作詳細報表。包括資料欄層級設定檔資訊和所用設定。

    每項工作歷來資料報表。

  • 「分析」分頁

    在 Dataplex 通用目錄的「Profile」頁面中,您可以使用「Analysis」分頁,查看多個設定檔工作中某個資料欄的特定統計資料趨勢。舉例來說,如果您有增量掃描作業,就能查看某個值的平均值在一段時間內的趨勢。

    「分析」分頁。

  • 建立專屬資訊主頁或數據分析

    如果您已設定資料剖析掃描作業,以便將結果匯出或儲存至 BigQuery 資料表,就可以使用 Looker Studio 等工具建立自己的資訊主頁。

限制

  • 資料剖析功能支援所有資料表類型的 BigQuery 資料表 (BIGNUMERIC 除外)。為含有 BIGNUMERIC 資料欄的資料表建立掃描作業會導致驗證錯誤,因此無法成功建立。

定價

  • Dataplex 通用目錄會使用進階處理 SKU 收取資料剖析費用。詳情請參閱「定價」。

  • 資料剖析的 Dataplex Universal Catalog 進階處理作業會以秒為單位計費,且須達到 1 分鐘的最低計費時間。

  • 您不必為失敗的剖析掃描付費。

  • 費用取決於資料列數、資料欄數、掃描的資料量、資料表上的分割和叢集設定,以及掃描頻率。

  • 您可以透過以下幾種方式降低資料剖析掃描作業的成本:

    • 取樣
    • 增量掃描
    • 資料欄篩選
    • 資料列篩選
  • 如要將 Dataplex 通用目錄付費處理 SKU 中的資料分析費用與其他費用區隔開來,請在雲端帳單報表中使用標籤 goog-dataplex-workload-type,並將值設為 DATA_PROFILE

  • 如要篩選匯總費用,請使用下列標籤:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

後續步驟