剖析單一專案中的 BigQuery 資料

本頁說明如何在專案層級設定 BigQuery 資料探索功能。如要剖析機構或資料夾,請參閱「剖析機構或資料夾中的 BigQuery 資料」。

如要進一步瞭解探索服務,請參閱資料設定檔

如要開始剖析資料,請建立掃描設定。

事前準備

  1. 確認專案已啟用 Cloud Data Loss Prevention API:

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the required API.

      Enable the API

    5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    6. Make sure that billing is enabled for your Google Cloud project.

    7. Enable the required API.

      Enable the API

    8. 確認您具備在專案層級設定資料剖析所需的 IAM 權限。

    9. 您必須在每個有資料要進行剖析的區域中,建立檢查範本。如要使用單一範本處理多個區域,可以使用儲存在 global 區域的範本。如果機構政策禁止您在 global 區域建立檢查範本,則必須為每個區域設定專屬的檢查範本。詳情請參閱資料落地注意事項

      這項工作僅允許在 global 區域建立檢查範本。如要為一或多個區域提供專屬檢查範本,請務必先建立這些範本,再執行這項工作。

    10. 您可以設定在發生特定事件時,讓 Sensitive Data Protection 將通知傳送至 Pub/Sub,例如 Sensitive Data Protection 剖析新資料表時。如要使用這項功能,請先建立 Pub/Sub 主題

    11. 您可以設定 Sensitive Data Protection,讓系統自動將標記附加至資源。這項功能可讓您根據計算出的機密程度,有條件地授予這些資源的存取權。如要使用這項功能,請先完成「根據資料機密程度控管資源的 IAM 存取權」一文中的工作。

    12. 建立掃描設定

      1. 前往「建立掃描設定」頁面。

        前往「建立掃描設定」

      2. 前往專案。在工具列上,按一下專案選取器並選取專案。

      以下各節將詳細說明「建立掃描設定」頁面中的步驟。在每個部分結尾,按一下「繼續」

      選取探索類型

      選取 [BigQuery]

      選取範圍

      執行下列其中一個步驟:

      • 如要掃描單一資料表,請選取「掃描一個資料表」

        每個資料表只能有一個單一資源掃描設定。詳情請參閱「剖析單一資料資源」。

        填寫要剖析的資料表詳細資料。

      • 如要執行標準專案層級剖析,請選取「掃描所選專案」

      管理時間表

      如果預設剖析頻率符合需求,可以略過「建立掃描設定」頁面的這個部分。

      設定這個專區的原因如下:

      • 微調所有資料或特定資料子集的剖析頻率。
      • 指定不想剖析的資料表。
      • 多次指定不想剖析的資料表。

      如要精細調整剖析頻率,請按照下列步驟操作:

      1. 按一下「新增時間表」
      2. 在「篩選器」部分,定義一或多個篩選器,指定排程範圍內的資料表。如果資料表符合至少一個已定義的篩選器,就會納入排程範圍。

        如要設定篩選器,請至少指定下列其中一項:

        • 專案 ID 或指定一或多個專案的規則運算式
        • 資料集 ID 或規則運算式,用於指定一或多個資料集
        • 資料表 ID 或規則運算式,可指定一或多個資料表

        規則運算式必須遵循 RE2 語法

        舉例來說,如要將資料集中的所有資料表納入篩選器,請指定該資料集的 ID,並將其他兩個欄位留空。

        如要符合篩選條件,資料表必須符合該篩選條件中指定的所有規則運算式。

        如要新增更多篩選器,請按一下「新增篩選器」,然後重複這個步驟。

      3. 按一下「頻率」

      4. 在「頻率」部分,指定 Sensitive Data Protection 是否應剖析篩選器中定義的資料表,以及剖析頻率:

        • 如果不想剖析資料表,請關閉「剖析資料表」

        • 如要剖析資料表至少一次,請保持啟用「剖析資料表」

          在這個部分的後續欄位中,您可以指定系統是否應重新分析資料,以及應觸發重新分析作業的事件。詳情請參閱「資料剖析產生頻率」。

          1. 在「結構定義變更時」部分,指定 Sensitive Data Protection 應檢查所選資料表結構定義變更的頻率 (上次剖析後)。系統只會重新剖析結構定義有變的資料表。
          2. 在「結構定義變更的類型」部分,指定應觸發重新剖析作業的結構定義變更類型。選擇下列其中一種做法:
            • 新資料欄:重新分析新增資料欄的資料表。
            • 移除的資料欄:重新分析已移除資料欄的表格。

            舉例來說,假設您每天都會在資料表中新增資料欄,且每次都需要剖析內容。您可以將「結構定義變更時」設為「每日重新剖析」,並將「結構定義變更類型」設為「新資料欄」

          3. 在「資料表異動時」部分,指定 Sensitive Data Protection 檢查所選資料表在上次剖析後是否有任何異動的頻率。系統只會重新剖析有變更的資料表。資料表變更的範例包括刪除資料列和結構定義變更。

            您選取的值必須等於或低於「結構定義變更時」欄位中設定的值。

          4. 如果是「檢查範本變更時」,請指定是否要在相關聯的檢查範本更新時重新剖析資料,以及重新剖析的頻率。

            如果發生下列任一情況,系統就會偵測到檢查範本變更:

            • 掃描設定中的檢查範本名稱有變。
            • 檢查範本的 updateTime 變更。

          5. 舉例來說,如果您為 us-west1 區域設定檢查範本,並更新該範本,則只有 us-west1 區域的資料會重新剖析。

      5. 按一下 [條件]

      6. 在「條件」部分,指定篩選器中定義的資料表必須符合哪些條件,Sensitive Data Protection 才會剖析這些資料表。如果設定最低條件時間條件,Sensitive Data Protection 只會剖析同時符合這兩種條件的資料表。

        • 最低條件:如果想延後剖析資料表,直到資料表有足夠的資料列或達到特定時間長度,這些條件就很有用。開啟要套用的條件,並指定最低列數或時間長度。
        • 時間條件:如果您不希望系統分析舊資料表,這個條件就非常實用。開啟時間條件,然後選擇日期和時間。系統不會對該日期當天或之前建立的任何資料表進行剖析。

        範例條件

        假設您有下列設定:

        • 最低條件

          • 資料列數量下限:10 列
          • 最短時間:24 小時
        • 時間條件

          • 時間戳記:2022 年 5 月 4 日晚上 11 點 59 分

        在這種情況下,Sensitive Data Protection 會排除在 2022 年 5 月 4 日晚上 11:59 前建立的所有資料表。在這個日期和時間之後建立的資料表中,Sensitive Data Protection 只會剖析有 10 個資料列至少 24 小時的資料表。

      7. 在「Tables to profile」(要剖析的資料表) 區段,根據要剖析的資料表類型,選取下列其中一個選項:

        • 剖析所有資料表:如要讓 Sensitive Data Protection 剖析符合篩選條件和條件的所有類型資料表,請選取這個選項。

          對於不支援的資料表類型,Sensitive Data Protection 只會產生部分填入的剖析檔。這類設定檔會顯示錯誤,指出相關資料表不受支援。如果想查看部分設定檔,請選取這個選項。

          Sensitive Data Protection 支援新的資料表類型時,會在下次排定的執行作業中,重新剖析該類型的資料表。

        • 剖析支援的資料表:如要讓 Sensitive Data Protection 只剖析符合篩選器和條件的支援資料表,請選取這個選項。不支援的資料表不會有部分設定檔。

        • 剖析特定資料表類型:如要讓 Sensitive Data Protection 只剖析您選取的資料表類型,請選取這個選項。在隨即顯示的清單中,選取一或多個類型。

          Sensitive Data Protection 支援新的資料表類型時,不會自動為該類型的資料表建立剖析檔。如要剖析新支援的表格類型,請編輯掃描設定並選取這些類型。

        如未選取任何選項,Sensitive Data Protection 只會剖析 BigQuery 資料表,不支援的資料表則會顯示錯誤。

        資料剖析的價格取決於剖析的資料表類型。詳情請參閱「資料剖析定價」。

      8. 按一下 [完成]

      9. 選用:如要新增更多時間表,請按一下「新增時間表」,然後重複上述步驟。

      10. 如要指定排程的優先順序,請使用 向上鍵和 向下鍵重新排序。

        時間表的順序會指定如何解決時間表之間的衝突。如果資料表符合兩個不同排程的篩選條件,系統會根據排程清單中較高的排程,決定該資料表的剖析頻率。

      11. 選用:編輯或關閉「所有其他時間」

        清單中的最後一個時間表是適用所有情況的時間表。這項排程涵蓋所選範圍內,與您建立的任何排程都不相符的表格。一律適用的排程會遵循系統預設的剖析頻率

        • 如要調整適用於所有情況的時段,請按一下「編輯時段」,然後視需要調整設定。
        • 如要防止 Sensitive Data Protection 剖析適用於全面排程的任何資源,請關閉「剖析不符合任何自訂排程的資源」

      選取檢查範本

      視您要提供檢查設定的方式而定,請選擇下列其中一個選項。無論選擇哪一個選項,Sensitive Data Protection 都會在資料儲存的區域掃描資料。也就是說,資料不會離開原始區域。

      方法 1:建立檢查範本

      如果您想在 global 區域建立新的檢查範本,請選擇這個選項。

      1. 按一下「建立新的檢查範本」
      2. 選用:如要修改 infoType 的預設選取項目,請按一下「管理 infoType」

        如要進一步瞭解如何管理內建和自訂的 infoType,請參閱透過Google Cloud 控制台管理 infoType

        您必須選取至少一個 infoType 才能繼續。

      3. 選用:新增規則集並設定信賴度門檻,進一步設定檢查範本。詳情請參閱「設定偵測」。

      Sensitive Data Protection 建立掃描設定時,會將這個新的檢查範本儲存在 global 區域。

      選項 2:使用現有的檢查範本

      如果您想使用現有的檢查範本,請選擇這個選項。

      1. 按一下「選取現有的檢查範本」
      2. 輸入要使用的檢查範本完整資源名稱。 「Region」(區域) 欄位會自動填入儲存檢查範本的區域名稱。

        輸入的檢查範本必須與要剖析的資料位於同一個區域。

        為遵守資料落地規定,Sensitive Data Protection 不會使用儲存區域以外的檢查範本。

        如要找出檢查範本的完整資源名稱,請按照下列步驟操作:

        1. 前往檢查範本清單。這個頁面會在另一個分頁中開啟。

          前往檢查範本

        2. 切換至包含要使用檢查範本的專案。
        3. 在「範本」分頁中,按一下要使用的範本 ID。
        4. 在隨即開啟的頁面中,複製範本的完整資源名稱。完整資源名稱的格式如下:
          projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
        5. 在「建立掃描設定」頁面的「範本名稱」欄位中,貼上範本的完整資源名稱。
      3. 如要為其他區域新增檢查範本,請按一下「新增檢查範本」,然後輸入範本的完整資源名稱。針對每個有專屬檢查範本的區域重複這個步驟。
      4. 選用:新增儲存在 global 區域的檢查範本。 如果區域沒有專屬的檢查範本,Sensitive Data Protection 會自動使用該範本。

      新增動作

      本節說明如何指定 Sensitive Data Protection 在剖析資料表後要採取的動作。如果您想將從資料設定檔收集的洞察資料傳送至其他Google Cloud 服務,這些動作就非常實用。

      發布至 Security Command Center

      Security Command Center 中,資料剖析檔的發現項目可提供背景資訊,協助您分類安全漏洞和威脅發現項目,並制定因應計畫。

      如要使用這項動作,必須先在機構層級啟用 Security Command Center。在機構層級啟用 Security Command Center 後,系統就能從 Sensitive Data Protection 等整合服務接收發現項目。Sensitive Data Protection 適用於 Security Command Center 的所有服務級別。

      如果未在機構層級啟用 Security Command Center,Sensitive Data Protection 發現項目就不會顯示在 Security Command Center 中。詳情請參閱「查看 Security Command Center 的啟用層級」。

      如要將資料剖析結果傳送至 Security Command Center,請務必開啟「發布至 Security Command Center」選項。

      詳情請參閱「將資料剖析檔發布至 Security Command Center」。

      將資料設定檔副本儲存至 BigQuery

      Sensitive Data Protection 會將每個產生的資料剖析檔副本儲存至 BigQuery 資料表。如果您未提供偏好資料表的詳細資料,Sensitive Data Protection 會在專案中建立資料集和資料表。根據預設,資料集名稱為 sensitive_data_protection_discovery,資料表名稱為 discovery_profiles

      這項操作可讓您保留所有產生的設定檔記錄。這項記錄有助於建立稽核報告和顯示資料設定檔。你也可以將這項資訊載入其他系統。

      此外,無論資料位於哪個區域,您都能透過這個選項在單一檢視畫面中查看所有資料設定檔。雖然您也可以透過Google Cloud 控制台查看資料設定檔,但控制台一次只會顯示一個區域的設定檔。

      如果 Sensitive Data Protection 無法剖析資料表,系統會定期重試。為盡量減少匯出資料中的干擾,Sensitive Data Protection 只會將成功產生的剖析檔匯出至 BigQuery。

      開啟這個選項後,Sensitive Data Protection 就會開始匯出剖析檔。啟用匯出功能前產生的剖析檔不會儲存至 BigQuery。

      如需分析資料設定檔時可使用的查詢範例,請參閱「分析資料設定檔」。

      將部分探索發現項目儲存至 BigQuery

      Sensitive Data Protection 可將範例發現項目新增至您選擇的 BigQuery 資料表。樣本結果僅代表所有結果的子集,可能無法呈現所有已發現的 infoType。一般來說,系統會為每個資料表產生約 10 個範例結果,但每次探索作業的結果數量可能不同。

      每個發現項目都會包含偵測到的實際字串 (也稱為「引文」) 和確切位置。

      如果您想評估檢查設定是否正確比對出您要標示為機密的資訊類型,這項動作就很有用。您可以使用匯出的資料設定檔和匯出的樣本結果執行查詢,進一步瞭解遭標記的特定項目、相符的 infoType、確切位置、計算出的敏感度等級和其他詳細資料。

      這個範例需要啟用「將資料剖析檔副本儲存至 BigQuery」和「將部分探索發現項目儲存至 BigQuery」

      下列查詢會對匯出的資料剖析表和匯出的樣本結果表執行 INNER JOIN 作業。在產生的表格中,每筆記錄都會顯示發現項目的引用內容、相符的 infoType、包含發現項目的資源,以及資源的計算敏感度等級。

      SELECT
       findings_table.quote,
       findings_table.infotype.name,
       findings_table.location.container_name,
       findings_table.location.data_profile_finding_record_location.field.name AS field_name,
       profiles_table.table_profile.dataset_project_id AS project_id,
       profiles_table.table_profile.dataset_id AS dataset_id,
       profiles_table.table_profile.table_id AS table_id,
       profiles_table.table_profile.sensitivity_score AS table_sensitivity_score
       FROM
       `FINDINGS_TABLE_PROJECT_ID.FINDINGS_TABLE_DATASET_ID.FINDINGS_TABLE_ID_latest_v1` AS findings_table
      INNER JOIN
       `PROFILES_TABLE_PROJECT_ID.PROFILES_TABLE_DATASET_ID.PROFILES_TABLE_ID_latest_v1` AS profiles_table
      ON
       findings_table.data_profile_resource_name=profiles_table.table_profile.name

      如要將發現項目示例儲存至 BigQuery 資料表,請按照下列步驟操作:

      1. 開啟「將部分探索發現項目儲存至 BigQuery」

      2. 輸入要儲存發現項目示例的 BigQuery 資料表詳細資料。

        您為這項動作指定的資料表,必須與「將資料剖析檔副本儲存至 BigQuery」動作所用的資料表不同。

        • 在「Project ID」(專案 ID) 中,輸入要匯出調查結果的現有專案 ID。

        • 在「Dataset ID」(資料集 ID) 部分,輸入專案中現有資料集的名稱。

        • 在「Table ID」(資料表 ID),輸入要儲存發現項目的 BigQuery 資料表名稱。如果這個資料表不存在,Sensitive Data Protection 會使用您提供的名稱,自動為您建立資料表。

      如要瞭解儲存在 BigQuery 資料表中的每個發現項目內容,請參閱DataProfileFinding

      將標記附加至資源

      開啟「將標記附加至資源」後,Sensitive Data Protection 會根據計算出的機密程度,自動為資料加上標記。如要完成本節內容,請先完成「根據資料機密程度控管資源的 IAM 存取權」中的工作。

      如要根據資源的計算敏感度層級自動標記資源,請按照下列步驟操作:

      1. 開啟「標記資源」選項。
      2. 針對每個私密程度 (高、中、低和不明),輸入您為該私密程度建立的代碼值路徑。

        如果略過某個私密程度,系統就不會附加該程度的標記。

      3. 如要在出現機密程度標記時,自動降低資源的資料風險等級,請選取「為資源加上標記後,將其剖析檔的資料風險降至『低』」。這個選項可協助您評估資料安全和隱私權狀態的改善程度。

      4. 選取下列其中一個選項,或同時選取兩者:

        • 初次剖析資源時加上標記。
        • 更新資源的剖析檔時加上標記。如果希望 Sensitive Data Protection 在後續的探索作業中覆寫敏感度層級標記值,請選取這個選項。因此,當資源的計算資料敏感度等級提高或降低時,主體的資源存取權會自動變更。

          如果您打算手動更新探索服務附加至資源的機密程度標籤值,請勿選取這個選項。如果選取這個選項,Sensitive Data Protection 可能會覆寫手動更新。

      發布至 Pub/Sub

      開啟「發布至 Pub/Sub」後,您就能根據剖析結果採取程式輔助動作。您可以運用 Pub/Sub 通知,開發工作流程來擷取並修正具有重大資料風險或敏感度的發現項目。

      如要將通知傳送至 Pub/Sub 主題,請按照下列步驟操作:

      1. 開啟「發布至 Pub/Sub」

        畫面上會顯示選項清單。每個選項都說明會導致 Sensitive Data Protection 將通知傳送至 Pub/Sub 的事件。

      2. 選取應觸發 Pub/Sub 通知的事件。

        如果選取「每當更新設定檔時傳送 Pub/Sub 通知」,當設定檔中的敏感度等級、資料風險等級、偵測到的 infoType、公開存取權和其他重要指標發生變化時,Sensitive Data Protection 就會傳送通知。

      3. 針對選取的每個事件,請按照下列步驟操作:

        1. 輸入主題名稱。名稱必須採用下列格式:

          projects/PROJECT_ID/topics/TOPIC_ID
          

          更改下列內容:

          • PROJECT_ID:與 Pub/Sub 主題相關聯的專案 ID。
          • TOPIC_ID:Pub/Sub 主題的 ID。
        2. 指定要在通知中加入完整資料表設定檔,還是只加入已設定檔的資料表完整資源名稱。

        3. 設定最低資料風險和機密程度,達到這些程度時,Sensitive Data Protection 就會傳送通知。

        4. 指定是否必須同時符合資料風險和敏感度條件,或只要符合其中一項即可。舉例來說,如果您選擇 AND,則資料風險和敏感度條件都必須符合,Sensitive Data Protection 才會傳送通知。

      以標記的形式傳送至 Data Catalog

      這項功能已淘汰

      這項動作可讓您根據資料剖析的洞察資料,在 Dataplex Universal Catalog 中建立 Data Catalog 標記。這項動作只會套用至新設定和更新的設定檔。 未更新的現有設定檔不會傳送至 Dataplex Universal Catalog。

      Data Catalog 是可擴充的全代管中繼資料管理服務。啟用這項動作後,系統會根據從資料剖析檔收集的洞察資料,自動在 Data Catalog 中標記您剖析的資料表。然後,您可以使用 Dataplex Universal Catalog,在貴機構和專案中搜尋具有特定標記值的資料表。

      如要將資料剖析檔傳送至 Dataplex Universal Catalog 做為 Data Catalog 標記,請務必開啟「以標記的形式傳送至 Dataplex」選項。

      詳情請參閱「根據資料剖析的洞察資訊,在 Data Catalog 中標記資料表」。

      傳送至 Dataplex Universal Catalog 做為切面

      這項動作可讓您根據資料剖析的洞察資訊,將 Dataplex Universal Catalog 切面 新增至已剖析的資料表。 這項動作只會套用至新設定和更新的設定檔。 未更新的現有設定檔不會傳送至 Dataplex Universal Catalog。

      啟用這項動作後,Sensitive Data Protection 會將 Sensitive Data Protection profile 切面附加至每個新建立或更新的資料表,並建立 Dataplex Universal Catalog 項目。產生的層面包含從資料設定檔收集的洞察資料。然後在貴機構和專案中,搜尋具有特定 Sensitive Data Protection profile 方面值的項目。

      如要將資料剖析檔傳送至 Dataplex Universal Catalog,請務必開啟「傳送至 Dataplex Catalog 做為切面」選項。

      詳情請參閱「根據資料剖析的洞察資訊新增 Dataplex Universal Catalog 切面」。

      設定儲存設定的位置

      按一下「資源位置」清單,然後選取要儲存這項掃描設定的區域。您稍後建立的所有掃描設定也會儲存在這個位置。

      您選擇的掃描設定儲存位置不會影響要掃描的資料。系統會在資料儲存的同一區域掃描資料。詳情請參閱「資料落地注意事項」。

      查看及建立

      1. 如要確保剖析功能不會在您建立掃描設定後自動啟動,請選取「在暫停模式下建立掃描作業」

        在下列情況中,這個選項會相當實用:

        • 您選擇將資料剖析檔儲存至 BigQuery,並想確保服務代理程式有權寫入要儲存資料剖析檔副本的 BigQuery 資料表。
        • 您選擇將部分探索發現項目儲存至 BigQuery,並希望確保服務代理程式具有 BigQuery 資料表的寫入權限,可將部分發現項目儲存至該資料表。
        • 您已設定 Pub/Sub 通知,並想授予服務代理發布存取權
        • 您已啟用「將標記附加至資源」動作,且需要授予服務代理存取機密等級標記的權限。
      2. 檢查相關設定,然後點按「建立」。

        Sensitive Data Protection 會建立掃描設定,並新增至探索掃描設定清單。

      如要查看或管理掃描設定,請參閱「管理掃描設定」。

      如果服務代理具備存取及剖析資料所需的角色,Sensitive Data Protection 會在您建立掃描設定或繼續執行已暫停的設定後,不久就會開始掃描資料。否則,當您查看掃描設定詳細資料時,Sensitive Data Protection 會顯示錯誤

      後續步驟

    13. 瞭解如何管理資料設定檔
    14. 瞭解如何管理掃描設定
    15. 瞭解如何接收及剖析資料剖析器發布的 Pub/Sub 訊息
    16. 瞭解如何排解資料設定檔問題