本文說明 Dataplex Universal Catalog 區域,以及如何將區域新增至 Dataplex Universal Catalog 湖泊。
總覽
Dataplex Universal Catalog 儲存區是 Dataplex Universal Catalog 湖泊中的具名實體。這些是無結構、半結構和結構化資料的邏輯分組,由多項資產組成,例如 Cloud Storage bucket、BigQuery 資料集和 BigQuery 資料表。
湖泊可包含一或多個區域。雖然區域只能屬於一個資料湖,但可能包含指向資源的資產,而這些資源屬於父項專案以外的專案。
您可以在 Dataplex Universal Catalog 中選取專區的設定。您可以選擇兩種區域:原始區域和精選區域。
原始區域
原始區域會儲存結構化資料、半結構化資料 (例如 CSV 檔案和 JSON 檔案),以及來自外部來源的任何格式非結構化資料。原始區域可用於暫存原始資料,再執行任何轉換。資料可以儲存在 Cloud Storage bucket 或 BigQuery 資料集中。
原始區域支援讀取和寫入權限的 bucket 層級或資料集層級精細程度。原始區域可儲存的資料類型沒有限制。
精選區域
收錄可用區會儲存結構化資料。資料可儲存在 Cloud Storage 值區或 BigQuery 資料集中。
Cloud Storage 值區支援的格式包括 Parquet、Avro 和 ORC。 經過整理的區域適合用於暫存需要處理的資料,再用於分析,或用於提供可供分析的資料。
如果是 BigQuery 資料表,您必須有明確定義的結構定義和 Hive 樣式的分區。在精選區域中為特定資料表提供結構定義時,資料應符合為資料表定義的結構定義,且不得發生結構定義漂移。也就是說,資料應與資料表定義的結構定義相容,且新分區的結構定義不應與資料表結構定義衝突。
特選區域支援 Cloud Storage 值區層級或 BigQuery 資料集層級的讀取和寫入權限精細度。
事前準備
如要在 lake 中新增儲存區,您必須先建立 lake。如果尚未建立湖泊,請先建立湖泊。
大多數 gcloud lake
指令都需要位置。如要指定位置,請設定 --location
參數。
必要的角色
如要取得新增區域所需的權限,請要求管理員授予您專案的 Dataplex 管理員 (roles/dataplex.admin
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
這個預先定義角色包含 dataplex.lakes.create
權限,這是新增區域的必要權限。
新增可用區
您可以在資料湖中新增多個可用區。一次只能新增一個儲存區,但建立儲存區時仍可使用 lake。
如要將區域新增至現有資料湖,請按照下列步驟操作:
控制台
在 Google Cloud 控制台中,前往 Dataplex Universal Catalog。
前往「管理」檢視畫面。
在「管理」檢視畫面中,按一下要新增可用區的湖泊名稱。
在「區域」分頁中,按一下「新增區域」
。輸入區域的顯示名稱。
按一下「類型」選單,選擇「Raw Zone」(原始可用區) 或「Curated Zone」(收錄的可用區)。進一步瞭解支援的可用區類型。
選用:輸入說明。
在「資料位置」下方,選取「區域性」或「多區域」。 選定後即無法變更。在同一個可用區中,單一區域和多區域的資料不得混用。
選用:啟用中繼資料探索功能,讓 Dataplex Universal Catalog 自動掃描及擷取可用區中的資料中繼資料:
按一下「探索設定」。
確認已選取「Enable metadata discovery」(啟用中繼資料探索功能)。
選用:在「包含模式」下方,列出要納入探索掃描的檔案。
選用:在「排除模式」下方,列出要從探索掃描中排除的檔案。如果同時輸入「納入」和「排除」模式,系統會先套用「排除」模式。
按一下「重複」選單,然後選取頻率。如果選取「自訂」,請在「排程」欄位中輸入工作排程。否則,系統會自動填入「時間表」值。
按一下「時區」選單,然後選取時區。
點選「建立」。
REST
如要新增區域,請使用 lakes.zones.create 方法。
可用區應該會在幾分鐘內建立。
區域建立成功後,系統會自動將區域設為有效狀態。如果失敗,湖泊就會還原為先前的狀態。
建立可用區後,您可以將 Cloud Storage 值區和 BigQuery 資料集儲存的資料對應為可用區的資產。詳情請參閱「新增資產」。
後續步驟
- 瞭解如何管理 buckets。
- 瞭解如何建立湖泊。
- 進一步瞭解 Cloud 稽核記錄。