使用 Data Catalog
Data Catalog 會自動分類 BigQuery 資源 (例如資料表、資料集、檢視區塊和模型) 的中繼資料,與 BigQuery 整合。本文說明如何使用 Data Catalog 搜尋這些資源、查看資料沿襲,以及新增標記。
搜尋 BigQuery 資源
如要使用 Data Catalog 搜尋 BigQuery 資料集、資料表和已加星號的專案,請按照下列步驟操作:
在 Google Cloud 控制台中,前往 Data Catalog 的「Search」頁面。
在「搜尋」欄位中輸入查詢,然後按一下「搜尋」。
如要修正搜尋參數,請使用「篩選條件」面板。舉例來說,在「系統」部分,選取「BigQuery」核取方塊。結果會篩選至 BigQuery 系統。
您可以在 Data Catalog 中透過Google Cloud 控制台執行基本搜尋,如要進一步瞭解如何在 Google Cloud 控制台中搜尋,請參閱「開啟公開資料集」。
資料歷程
資料歷程是 Dataplex Universal Catalog 的功能,可讓您追蹤資料在系統中的移動方式,包括資料來源、傳遞至何處,以及套用的轉換。您可以直接從 BigQuery 存取資料沿襲功能。
在 BigQuery 專案中啟用資料歷程後,Dataplex 通用目錄會自動記錄下列作業所建立資料表的歷程資訊:
- 複製工作。
在 GoogleSQL 中使用下列資料定義語言 (DDL) 或資料操縱語言 (DML) 陳述式的查詢工作:
CREATE TABLE
(包括CREATE TABLE AS SELECT
陳述式)INSERT
UPDATE
DELETE
MERGE
事前準備
在本節中,您將啟用 Data Lineage API,並授予身分與存取權管理 (IAM) 角色,讓使用者擁有執行本文中各項工作所需的權限。
啟用資料歷程
必要 IAM 角色
啟用 Data Lineage API 後,系統會自動追蹤歷程資訊。
如要取得查看沿襲圖所需的權限,請要求管理員授予下列 IAM 角色:
-
Data Catalog 檢視者 (
roles/datacatalog.viewer
) 在 Data Catalog 資源專案中。 -
資料歷程檢視者 (
roles/datalineage.viewer
) 在您使用資料歷程支援系統的專案中。 -
BigQuery 中繼資料 (
roles/bigquery.metadataViewer
)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
詳情請參閱資料沿襲角色。
在 BigQuery 中查看沿襲圖
如要從 BigQuery 查看資料沿襲圖,請按照下列步驟操作:
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」面板中,展開專案和資料集,然後選取資料表。
按一下「沿革」分頁標籤。
系統會顯示資料沿襲圖。
選用:選取節點,即可查看與建構沿襲資訊相關的實體或程序其他詳細資料。
如要進一步瞭解資料歷程,請參閱「關於資料歷程」。
標記和標記範本
機構可透過標記,在統一服務中建立、搜尋及管理所有資料項目的中繼資料。
本節說明兩個重要的 Data Catalog 概念:
標記可讓您附加自訂中繼資料欄位,為資料項目提供背景資訊。
標記範本是可重複使用的結構,方便您快速建立新的標記。
標記
Data Catalog 提供兩種標記:私人標記和公開標記。
私人標記
私人標記提供嚴格的存取權控管機制。您必須具備私人標記範本和資料項目所需的查看權限,才能搜尋或查看標記及其相關聯的資料項目。
如要在「資料目錄」頁面搜尋私人標記,必須使用 tag:
搜尋語法或搜尋篩選器。
如果您需要在標記中儲存某些私密資訊,且想在檢查使用者是否具備查看標記項目的權限之外,套用額外的存取限制,就適合使用私密標記。
公開標記
與私人標記相比,公開標記的搜尋和查看標記存取控管較不嚴格。具備資料項目必要查看權限的使用者,都可以查看所有與該資料項目相關聯的公開標記。只有在 Data Catalog 中使用 tag:
語法進行搜尋,或查看未附加的標記範本時,才需要公開標記的查看權限。
公開標記支援簡易搜尋,以及在 Data Catalog 搜尋頁面中透過述詞搜尋。建立標記範本時, Google Cloud 控制台預設會建議您建立公開範本。
舉例來說,假設您有一個名為 employee data
的公開代碼範本,並用來為名為 Name
、Location
和 Salary
的三個資料項目建立代碼。在三筆資料中,只有名為「HR
」的特定群組成員可以查看「Salary
」資料項目。另外兩筆資料項目則開放公司所有員工檢視。
如果不是 HR
群組成員的員工使用資料目錄搜尋頁面,並以 employee
一字進行搜尋,搜尋結果只會顯示 Name
和 Location
資料項目,以及相關聯的公開標記。
公開標記適用於各種情境。公開標記支援簡易搜尋和使用述詞搜尋,私人標記則僅支援使用述詞搜尋。
標記範本
請先建立一或多個標記範本,才能開始標記中繼資料。標記範本可以是公開或私人範本。建立標記範本時, Google Cloud 控制台預設會建議您建立公開範本。代碼範本是一組稱為「欄位」的中繼資料鍵/值組合。擁有一組範本,就好像擁有中繼資料的資料庫結構定義一樣。
您可以依主題分類標記。例如:
data governance
標籤,內含資料管理員、保留日期、刪除日期、個人識別資訊 (是或否)、資料分類 (公開、機密、敏感、法規) 等欄位data quality
代碼,其中包含品質問題、更新頻率、服務等級目標 (SLO) 資訊的欄位- 含有熱門使用者、熱門查詢、每日平均使用者欄位的
data usage
標籤
然後,您就可以混用代碼,只使用與每個資料資產和業務需求相關的代碼。
查看代碼範本庫
為協助您入門,Data Catalog 內含範例標記範本庫,說明常見的標記用途。您可以參考這些範例,瞭解標記的強大功能、從中汲取靈感,或做為建立自有標記基礎架構的起點。
如要使用代碼範本庫,請按照下列步驟操作:
前往 Google Cloud 控制台的 Dataplex Universal Catalog「標記範本」頁面。
按一下「建立標記範本」。
範本庫會顯示在「建立範本」頁面中。
從範本庫選取範本後,使用方式和其他任何代碼範本完全一樣。您可以根據自己的業務需求新增及刪除屬性,以及變更範本中的任何內容。然後,您可以使用 Data Catalog 搜尋範本欄位和值。
如要進一步瞭解標記和標記範本,請參閱「標記和標記範本」。
地區資源
每個代碼範本和代碼都會儲存在特定Google Cloud區域。您可以使用標記範本在任何區域建立標記,因此如果中繼資料項目分散在多個區域,您不需要建立範本副本。