根據資料設定檔的洞察資料,在 Data Catalog 中標記資料表

本頁面說明 Sensitive Data Protection 剖析 BigQuery 資料表後,如何自動將 Data Catalog 標記套用至這些資料表。本頁面也提供範例查詢,可用於在機構和專案中尋找已加上標記的資料。

如果您想使用從 Sensitive Data Protection 資料設定檔收集的洞察資訊,來擴充 Dataplex Universal Catalog 中手動策劃的中繼資料,這項功能就非常實用。系統產生的標記包含下列洞察資訊:

  • 系統在資料表欄中偵測到的資訊類型 (infoTypes)
  • 資料表的計算敏感度等級
  • 計算得出的資料表風險等級

您可以根據 Sensitive Data Protection 資料剖析檔的洞察資訊,使用 Dataplex Universal Catalog 探索貴機構中的機密和高風險資料。您可以根據這些洞察資料,做出明智的決策,瞭解如何管理及控管資料。

如要將檢查作業 (而非資料剖析作業) 的結果傳送至 Dataplex Universal Catalog,請參閱「將 Sensitive Data Protection 檢查結果傳送至 Data Catalog」一文。

關於資料剖析檔

您可以設定 Sensitive Data Protection,自動產生機構、資料夾或專案中資料的剖析檔。資料剖析檔包含資料的指標和中繼資料,可協助您判斷機密和高風險資料的存放位置。Sensitive Data Protection 會在不同詳細程度的層級回報這些指標。如要瞭解可剖析的資料類型,請參閱「支援的資源」。

關於 Dataplex Universal Catalog 和 Data Catalog

Dataplex Universal Catalog 是一項 Google Cloud 服務,可統合分散式資料,並自動管理及控管這些資料。Data Catalog (已淘汰) 是可擴充的全代管中繼資料管理服務。

您可以使用 Data Catalog 的「標記」和「標記範本」,將業務中繼資料附加至資料。然後,您可以在統一服務中搜尋及管理機構或專案的所有中繼資料。詳情請參閱「代碼和代碼範本」。

運作方式

如果探索掃描設定已啟用「以標記形式傳送至 Dataplex」動作,Sensitive Data Protection 每次分析資料時,都會執行下列操作。這項動作只會套用至新設定和更新的設定檔。 未更新的現有設定檔不會傳送至 Dataplex Universal Catalog。

  1. 建立私有標記範本,內含要附加至 BigQuery 資料表的標記結構定義。如要瞭解代碼範本的名稱、ID 和位置,請參閱「代碼範本詳細資料」。

    只有具備適當角色和權限的主體才能查看標記範本。

  2. 為您剖析的每個 BigQuery 資料表建立標記。這個代碼是以新建立的代碼範本為基礎。

    舉例來說,附加至資料表的結果標記可能會有下列中繼資料:

    顯示名稱
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

如果資料表是透過下列兩種方式剖析,則會有兩個標記:

  • 組織或資料夾層級的掃描設定
  • 專案層級掃描設定

標記資料表後,您可以在 Dataplex Universal Catalog 中,搜尋機構或專案內具有特定標記值的資料。

標記範本詳細資料

範本名稱、範本 ID 和儲存新代碼範本的專案,取決於掃描設定所屬的資源。

  • 如果掃描設定是機構層級或資料夾層級的設定,標記範本會儲存在服務代理程式容器中。代碼範本的名稱為 Sensitive Data Profile。範本 ID 為 sensitive_data_profile
  • 如果掃描設定是專案層級的設定,標記範本會儲存在要剖析的專案中。代碼範本的名稱為 Sensitive Data Profile (Project)。範本 ID 為 sensitive_data_profile_project

定價

如要瞭解其他 Google Cloud 服務匯出資料剖析時的收費方式,請參閱「匯出資料剖析的定價」。

根據資料剖析檔自動標記 BigQuery 資料表

  1. 建立掃描設定。或者,您也可以編輯現有的掃描設定。

  2. 在「新增動作」步驟中,請務必開啟「以標記的形式傳送至 Dataplex」

    • 如果您要建立掃描設定,這項動作預設為啟用。
    • 如果您要編輯掃描設定,必須啟用這項動作。

完成資料剖析和標記後,即可在 Dataplex Universal Catalog 中搜尋標記的資料。

查看標記的角色和權限

Dataplex Universal Catalog 搜尋結果只會顯示您有權存取的資料。如要搜尋附加至 BigQuery 資料表的標記,您需要下列 Identity and Access Management (IAM) 角色或權限。

目的 預先定義的角色 相關權限
查看私人標記範本 Data Catalog TagTemplate 檢視者 (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
查看套用至 BigQuery 資料表的標記 BigQuery 中繼資料檢視者 (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

如要進一步瞭解 Dataplex Universal Catalog 角色,請參閱「查看公開和私人標記的角色」。

如要瞭解如何授予預先定義的角色,請參閱「授予單一角色」。如要使用自訂角色而非預先定義的角色,請確認自訂角色具備相關權限。詳情請參閱「建立自訂角色」。

找出產生的標記範本

  1. 前往 Google Cloud 控制台的 Dataplex Universal Catalog「標記範本」頁面。

    前往「代碼範本」

  2. 在清單中找出所需代碼範本。如要瞭解代碼範本的名稱、ID 和位置,請參閱「代碼範本詳細資料」。

  3. 選用:如要找出特定探索掃描設定產生的代碼範本,請在「篩選器」欄位中輸入下列內容:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    更改下列內容:

    • PROJECT_ID:與掃描設定相關聯的專案 ID。如果您在機構或資料夾層級分析資料,請輸入服務代理程式容器的專案 ID。
    • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。

找出特定資料表資料設定檔產生的標記

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。

    前往「搜尋」頁面

  2. 在「搜尋」欄位中輸入下列內容:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    更改下列內容:

    • TABLE_ID:已分析的資料表 ID。
    • PROJECT_ID:包含代碼範本的專案 ID。如果您在機構或資料夾層級分析資料,請輸入服務代理程式容器的專案 ID。
    • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  3. 在顯示的清單中,按一下資料表 ID。BigQuery 資料表的詳細資料會連同附加的 Sensitive Data ProfileSensitive Data Profile (Project) 標記一併顯示。

    如果資料表是透過下列兩種方式剖析,則會有兩個標記:

    • 組織或資料夾層級的掃描設定
    • 專案層級掃描設定

如要瞭解如何透過 Data Catalog API 執行搜尋,請參閱「如何搜尋資料資產」。

搜尋查詢範例

本節提供範例搜尋查詢,您可以在 Dataplex Universal Catalog 中使用這些查詢,找出貴機構或專案中具有特定標記值的資料。

您只能找到自己有權存取的資料。資料存取權由 IAM 權限控管。詳情請參閱本頁面的「查看代碼的角色和權限」。

您可以在 Google Cloud 控制台的 Dataplex Universal Catalog「Search」(搜尋) 頁面中輸入這些查詢。

前往「搜尋」頁面

如要瞭解如何建立查詢,請參閱資料目錄搜尋語法。如要瞭解如何透過 Data Catalog API 執行搜尋,請參閱「如何搜尋資料資產」。

找出使用新標記範本標記的所有表格

tag:PROJECT_ID.TAG_TEMPLATE_ID

更改下列內容:

  • PROJECT_ID:包含代碼範本的專案 ID。如果您在機構或資料夾層級分析資料,請輸入服務代理程式容器的專案 ID。
  • TAG_TEMPLATE_IDsensitive_data_profile (掃描設定適用於機構或資料夾);sensitive_data_profile_project (掃描設定適用於專案)。

本頁的後續範例未包含專案 ID,因此您可能會取得與各種探索掃描設定相關聯的結果。如要將結果限制為特定掃描設定,請在查詢中加入專案 ID,如以下範例所示。

找出上次剖析時間早於特定日期的所有資料表

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • DATE:日期,格式為 YYYY-MM-DD,例如 2023-01-15

找出所有具有特定資料表層級機密分數的資料表

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • SENSITIVITY_SCOREHIGHMODERATELOW

詳情請參閱「資料風險和敏感程度」。

找出所有具有特定資料風險等級的資料表

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • DATA_RISK_LEVELHIGHMODERATELOW

詳情請參閱「資料風險和敏感程度」。

找出包含特定預測 infoType 的所有表格

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需所有內建 infoType 的清單,請參閱 InfoType 偵測工具參考資料

詳情請參閱「指標參考資料」中的「預測 infoType」

找出部分含有特定 infoType 的所有資料表

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需所有內建 infoType 的清單,請參閱 InfoType 偵測工具參考資料

詳情請參閱「指標參考資料」中的「其他 infoType」。

找出包含特定資料欄和特定預測 infoType 的所有資料表

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • COLUMN_NAME:BigQuery 資料表中的資料欄名稱。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需所有內建 infoType 的清單,請參閱 InfoType 偵測工具參考資料

詳情請參閱「指標參考資料」中的「預測 infoType」

找出所有包含特定資料欄的資料表,且該資料欄具有特定資料欄層級的私密性分數

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

更改下列內容:

  • TAG_TEMPLATE_IDsensitive_data_profile (如果掃描設定適用於機構或資料夾);sensitive_data_profile_project (如果掃描設定適用於專案)。
  • COLUMN_NAME:BigQuery 資料表中的資料欄名稱。
  • SENSITIVITY_SCOREHIGHMODERATELOW

詳情請參閱「資料風險和敏感程度」。

標記值遭到截斷

如果 BigQuery 資料表的資料欄標題資料超過 10 MB,產生的代碼可能會在 Column InsightsColumn Sensitivity 欄位中顯示 [TRUNCATED]。在這種情況下,建議您前往 Sensitive Data Protection 查看資料表資料剖析檔和相關聯的資料欄資料剖析檔。