新增可用區

本文說明 Dataplex Universal Catalog 區域,以及如何將區域新增至 Dataplex Universal Catalog 湖泊。

總覽

Dataplex Universal Catalog 儲存區是 Dataplex Universal Catalog 湖泊中的具名實體。這些是無結構、半結構和結構化資料的邏輯分組,由多項資產組成,例如 Cloud Storage bucket、BigQuery 資料集和 BigQuery 資料表。

湖泊可包含一或多個區域。雖然區域只能屬於一個資料湖,但可能包含指向資源的資產,而這些資源屬於父項專案以外的專案。

您可以在 Dataplex Universal Catalog 中選取專區的設定。您可以選擇兩種區域:原始區域和精選區域。

原始區域

原始區域會儲存結構化資料、半結構化資料 (例如 CSV 檔案和 JSON 檔案),以及來自外部來源的任何格式非結構化資料。原始區域可用於暫存原始資料,再執行任何轉換。資料可以儲存在 Cloud Storage bucket 或 BigQuery 資料集中。

原始區域支援讀取和寫入權限的 bucket 層級或資料集層級精細程度。原始區域可儲存的資料類型沒有限制。

精選區域

收錄可用區會儲存結構化資料。資料可儲存在 Cloud Storage 值區或 BigQuery 資料集中。

Cloud Storage 值區支援的格式包括 Parquet、Avro 和 ORC。 經過整理的區域適合用於暫存需要處理的資料,再用於分析,或用於提供可供分析的資料。

如果是 BigQuery 資料表,您必須有明確定義的結構定義和 Hive 樣式的分區。在精選區域中為特定資料表提供結構定義時,資料應符合為資料表定義的結構定義,且不得發生結構定義漂移。也就是說,資料應與資料表定義的結構定義相容,且新分區的結構定義不應與資料表結構定義衝突。

特選區域支援 Cloud Storage 值區層級或 BigQuery 資料集層級的讀取和寫入權限精細度。

事前準備

如要在 lake 中新增儲存區,您必須先建立 lake。如果尚未建立湖泊,請先建立湖泊

大多數 gcloud lake 指令都需要位置。如要指定位置,請設定 --location 參數。

必要的角色

如要取得新增區域所需的權限,請要求管理員授予您專案的 Dataplex 管理員 (roles/dataplex.admin) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

這個預先定義角色包含 dataplex.lakes.create 權限,這是新增區域的必要權限。

您或許還可透過自訂角色或其他預先定義的角色取得這項權限。

新增可用區

您可以在資料湖中新增多個可用區。一次只能新增一個儲存區,但建立儲存區時仍可使用 lake。

如要將區域新增至現有資料湖,請按照下列步驟操作:

控制台

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog。

    前往 Dataplex

  2. 前往「管理」檢視畫面。

  3. 在「管理」檢視畫面中,按一下要新增可用區的湖泊名稱。

  4. 在「區域」分頁中,按一下「新增區域」

  5. 輸入區域的顯示名稱

  6. 按一下「類型」選單,選擇「Raw Zone」(原始可用區) 或「Curated Zone」(收錄的可用區)。進一步瞭解支援的可用區類型

  7. 選用:輸入說明。

  8. 在「資料位置」下方,選取「區域性」或「多區域」。 選定後即無法變更。在同一個可用區中,單一區域和多區域的資料不得混用。

  9. 選用:啟用中繼資料探索功能,讓 Dataplex Universal Catalog 自動掃描及擷取可用區中的資料中繼資料:

    1. 按一下「探索設定」

    2. 確認已選取「Enable metadata discovery」(啟用中繼資料探索功能)

    3. 選用:在「包含模式」下方,列出要納入探索掃描的檔案。

    4. 選用:在「排除模式」下方,列出要從探索掃描中排除的檔案。如果同時輸入「納入」和「排除」模式,系統會先套用「排除」模式。

    5. 按一下「重複」選單,然後選取頻率。如果選取「自訂」,請在「排程」欄位中輸入工作排程。否則,系統會自動填入「時間表」值。

    6. 按一下「時區」選單,然後選取時區。

  10. 點選「建立」

REST

如要新增區域,請使用 lakes.zones.create 方法。

可用區應該會在幾分鐘內建立。

區域建立成功後,系統會自動將區域設為有效狀態。如果失敗,湖泊就會還原為先前的狀態。

建立可用區後,您可以將 Cloud Storage 值區和 BigQuery 資料集儲存的資料對應為可用區的資產。詳情請參閱「新增資產」。

後續步驟