使用 Data Catalog

Data Catalog 會自動分類 BigQuery 資源 (例如資料表、資料集、檢視區塊和模型) 的中繼資料,與 BigQuery 整合。本文說明如何使用 Data Catalog 搜尋這些資源、查看資料沿襲,以及新增標記。

搜尋 BigQuery 資源

如要使用 Data Catalog 搜尋 BigQuery 資料集、資料表和已加星號的專案,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往 Data Catalog 的「Search」頁面。

    前往「搜尋」頁面

  2. 在「搜尋」欄位中輸入查詢,然後按一下「搜尋」

    您可以使用 Data Catalog 搜尋功能,在專案和機構中尋找資料。

    如要修正搜尋參數,請使用「篩選條件」面板。舉例來說,在「系統」部分,選取「BigQuery」核取方塊。結果會篩選至 BigQuery 系統。

您可以在 Data Catalog 中透過Google Cloud 控制台執行基本搜尋,如要進一步瞭解如何在 Google Cloud 控制台中搜尋,請參閱「開啟公開資料集」。

資料歷程

資料歷程是 Dataplex Universal Catalog 的功能,可讓您追蹤資料在系統中的移動方式,包括資料來源、傳遞至何處,以及套用的轉換。您可以直接從 BigQuery 存取資料沿襲功能。

在 BigQuery 專案中啟用資料歷程後,Dataplex 通用目錄會自動記錄下列作業所建立資料表的歷程資訊:

事前準備

在本節中,您將啟用 Data Lineage API,並授予身分與存取權管理 (IAM) 角色,讓使用者擁有執行本文中各項工作所需的權限。

啟用資料歷程

  1. 在 Google Cloud 控制台的專案選取器頁面中,選取含有要追蹤沿襲的資源的專案。

    前往專案選取器

  2. 啟用 Data Lineage API 和 Dataplex API。

    啟用 API

必要 IAM 角色

啟用 Data Lineage API 後,系統會自動追蹤歷程資訊。

如要取得查看沿襲圖所需的權限,請要求管理員授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

詳情請參閱資料沿襲角色

在 BigQuery 中查看沿襲圖

如要從 BigQuery 查看資料沿襲圖,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」面板中,展開專案和資料集,然後選取資料表。

  3. 按一下「沿革」分頁標籤。

    「資料歷程」分頁。

    系統會顯示資料沿襲圖。

    資料歷程圖。

  4. 選用:選取節點,即可查看與建構沿襲資訊相關的實體或程序其他詳細資料。

如要進一步瞭解資料歷程,請參閱「關於資料歷程」。

標記和標記範本

機構可透過標記,在統一服務中建立、搜尋及管理所有資料項目的中繼資料。

本節說明兩個重要的 Data Catalog 概念:

  • 標記可讓您附加自訂中繼資料欄位,為資料項目提供背景資訊。

  • 標記範本是可重複使用的結構,方便您快速建立新的標記。

標記

Data Catalog 提供兩種標記:私人標記和公開標記。

私人標記

私人標記提供嚴格的存取權控管機制。您必須具備私人標記範本和資料項目所需的查看權限,才能搜尋或查看標記及其相關聯的資料項目。

如要在「資料目錄」頁面搜尋私人標記,必須使用 tag: 搜尋語法或搜尋篩選器。

如果您需要在標記中儲存某些私密資訊,且想在檢查使用者是否具備查看標記項目的權限之外,套用額外的存取限制,就適合使用私密標記。

公開標記

與私人標記相比,公開標記的搜尋和查看標記存取控管較不嚴格。具備資料項目必要查看權限的使用者,都可以查看所有與該資料項目相關聯的公開標記。只有在 Data Catalog 中使用 tag: 語法進行搜尋,或查看未附加的標記範本時,才需要公開標記的查看權限。

公開標記支援簡易搜尋,以及在 Data Catalog 搜尋頁面中透過述詞搜尋。建立標記範本時, Google Cloud 控制台預設會建議您建立公開範本。

舉例來說,假設您有一個名為 employee data 的公開代碼範本,並用來為名為 NameLocationSalary 的三個資料項目建立代碼。在三筆資料中,只有名為「HR」的特定群組成員可以查看「Salary」資料項目。另外兩筆資料項目則開放公司所有員工檢視。

如果不是 HR 群組成員的員工使用資料目錄搜尋頁面,並以 employee 一字進行搜尋,搜尋結果只會顯示 NameLocation 資料項目,以及相關聯的公開標記。

公開標記適用於各種情境。公開標記支援簡易搜尋和使用述詞搜尋,私人標記則僅支援使用述詞搜尋。

標記範本

請先建立一或多個標記範本,才能開始標記中繼資料。標記範本可以是公開或私人範本。建立標記範本時, Google Cloud 控制台預設會建議您建立公開範本。代碼範本是一組稱為「欄位」的中繼資料鍵/值組合。擁有一組範本,就好像擁有中繼資料的資料庫結構定義一樣。

您可以依主題分類標記。例如:

  • data governance 標籤,內含資料管理員、保留日期、刪除日期、個人識別資訊 (是或否)、資料分類 (公開、機密、敏感、法規) 等欄位
  • data quality 代碼,其中包含品質問題、更新頻率、服務等級目標 (SLO) 資訊的欄位
  • 含有熱門使用者、熱門查詢、每日平均使用者欄位的 data usage 標籤

然後,您就可以混用代碼,只使用與每個資料資產和業務需求相關的代碼。

為協助您入門,Data Catalog 內含範例標記範本庫,說明常見的標記用途。您可以參考這些範例,瞭解標記的強大功能、從中汲取靈感,或做為建立自有標記基礎架構的起點。

如要使用代碼範本庫,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的 Dataplex Universal Catalog「標記範本」頁面。

    前往「代碼範本」

  2. 按一下「建立標記範本」

    範本庫會顯示在「建立範本」頁面中。

從範本庫選取範本後,使用方式和其他任何代碼範本完全一樣。您可以根據自己的業務需求新增及刪除屬性,以及變更範本中的任何內容。然後,您可以使用 Data Catalog 搜尋範本欄位和值。

如要進一步瞭解標記和標記範本,請參閱「標記和標記範本」。

地區資源

每個代碼範本和代碼都會儲存在特定Google Cloud區域。您可以使用標記範本在任何區域建立標記,因此如果中繼資料項目分散在多個區域,您不需要建立範本副本。