資料網格概念
在深入瞭解如何使用 Google Cloud Cortex Framework 部署資料網格的詳細指南之前,本頁面會先說明如何在 Google Cloud 產品中,以及在 Cortex Framework 環境中,一般實作相關資料網格概念。瞭解資料網格概念後,請參閱 Data Mesh 使用手冊,瞭解 Cortex Framework Data Foundation。
Dataplex Universal Catalog
下表定義 Dataplex Universal Catalog 中的資料網格概念:
概念 | 說明 | Cortex Framework 情境 |
湖泊 | 在資料網格中整理資料的頂層單位。管理 Dataplex Universal Catalog - Lakes。 | 資料來源,例如 SAP ECC 、Salesforce 、Google Ads 。
|
區域 | 在湖泊中整理資料的第二層單位。 | 資料來源中的特定處理層,例如原始資料與 CDC。 |
Dataplex Universal Catalog 資產 | 參考與可用區相關聯的 Cloud Storage 或 BigQuery 中儲存的資料。這是指資料資產,而非資料本身。 | 參照在區域中註冊的 BigQuery 資料集。 |
標籤 | 可套用至湖泊或區域的任意鍵/值組合。 | 使用中繼資料標記整個湖泊或區域 (而非資料表或資料欄),這些中繼資料可在 Dataplex Universal Catalog 中查看,或用於自訂應用程式。 |
Data Catalog | 技術業務中繼資料,可用於探索、瞭解或管理倉儲中的資料資產。 | 使用豐富的中繼資料標記註解資料表或資料欄 (而非湖泊或區域),這些標記可用於 Dataplex Universal Catalog 搜尋或自訂應用程式。 |
目錄代碼範本 | 範本會定義標記中的可用欄位及其類型。管理 Dataplex Universal Catalog - Tag Templates | 定義一組範本,用於為資料資產加上業務線等標籤。 |
目錄標記 | 一組欄位及其值,其中包含適用於資料表或資料欄的中繼資料。代碼範本的執行個體。 | 使用與資產相關的中繼資料值 (例如特定業務線),為表格或資料欄加上註解。 |
目錄詞彙表 | 可定義並與 BigQuery 資料欄建立關聯的術語字典。管理 Dataplex Universal Catalog - 詞彙表。 | 定義 BigQuery 資產中使用的字詞或縮寫。請注意,這項功能預計在日後推出,目前不支援。 |
資料沿革 | 代表 BigQuery 資產依附元件的圖表。 | 這些不是由 Cortex Data Mesh 定義,但這是相關的 Dataplex Universal Catalog 工具,可協助使用者探索 BigQuery 資產資料來源。 |
沿襲事件 | 作業發生時間點,用於在 BigQuery 資產之間移動資料。包含連結清單。 | 系統會自動為支援的 BigQuery 和 Composer 作業建立。 |
歷程連結 | 邊緣代表資料從來源流向目標資產,是沿襲事件的一部分。 | 您可以分析這項資料,支援控制台顯示的歷程視覺化圖表以外的用途。 |
BigQuery
下表定義 BigQuery 中的資料網格概念:
概念 | 說明 | Cortex Framework 情境 |
政策分類 | 政策標記的階層。管理「BigQuery - 政策標記」。 | 將可用於存取權控管的相關政策標記,按階層整理成具有權限繼承的結構。 |
政策標記 | 套用至 BigQuery 資料表或檢視表中特定資料欄的標記。您可以套用階層中任何層級的政策標記。特定資料欄只能套用一個政策標記。 | 使用標記註解資料欄,用於資料欄層級存取權控管。政策標記的主體會定義可查看原始資料欄資料的「精細」或「未遮蓋」讀取者。 |
資料政策 | 套用至政策標記的政策,可定義檢視遮蓋欄資料的方式和對象。 | 資料政策中的主體會定義「經過遮蓋的讀取者」,這些使用者可以查看經過遮蓋的資料欄資料。如果使用者沒有遮蓋或未遮蓋的讀取者權限,就無法查詢該資料欄。 |
遮蓋規則 | 套用至資料政策的規則,定義資料的遮蓋方式,例如雜湊、顯示預設值、最後四個字元等。 | 視情況套用至私密資料欄。 |
資料列存取政策 | SQL 陳述式,可根據特定資料欄值,定義哪些群組可以查詢資料表中的資料列。 | 當資產和資料欄層級的控制機制不足時,可用於列層級存取權控管。 |
Cortex 資料網格概念
下表定義 Cortex Framework 中的特定資料網格概念:
概念 | 說明 | Cortex Framework 情境 |
中繼資料資源 | 中繼資料實體,可在多個 BigQuery 資產中重複使用。例如 Lake、目錄標記範本和政策分類。具體來說,這是指中繼資料,而非 BigQuery 中的資料本身。 | 定義可重複使用的資源,以便一致管理 Cortex 資料網格。 |
BigQuery 資產 | BigQuery 資料表或檢視表。 | 受資料網格控管的現有 Cortex BigQuery 物件。 |
BigQuery 資產註解 | 套用至特定 BigQuery 資料表或檢視區塊的中繼資料。包括說明、存取政策和對應至中繼資料資源的對應。 | 將中繼資料與 BigQuery 資產建立關聯,以啟用探索和存取權控管功能。 |
資源規格 (spec) | 定義中繼資料資源或 BigQuery 資產註解的 YAML 檔案。 | 整套資源規格會將要部署的資料網格設定編碼。 |