透過掃描產生資料剖析深入分析資訊
本文件說明如何搭配使用 BigQuery 和 Dataplex 通用目錄,進一步瞭解資料。BigQuery 會使用 Dataplex 通用目錄分析資料的統計特徵,例如平均值、不重複值和最大值。Dataplex 通用目錄也會使用這項資訊,推薦資料品質檢查規則。
如要進一步瞭解資料剖析,請參閱「關於資料剖析」。
事前準備
如要在專案中建立及修改掃描作業:啟用 Dataplex API。
跨專案掃描:使用
gcloud beta services identity create
指令建立 Dataplex 通用目錄服務 ID。如果 Dataplex 通用目錄服務 ID 不存在,這個指令會傳回新的 ID。如果服務 ID 已存在,則指令會傳回現有的 ID。這個指令可能會提示您安裝 gcloud CLI Beta 版指令元件。gcloud beta services identity create --service=dataplex.googleapis.com
必要的角色
請管理員根據帳戶管理員需要存取的用途,將下列角色授予適當的帳戶管理員。如要進一步瞭解如何授予角色,請參閱「管理存取權」。
BigQuery 角色
- 資料表的 BigQuery 資料檢視器,可在該資料表上建立掃描作業,但不會發布結果。
- 資料表的 BigQuery 資料編輯器,可在該資料表上建立掃描作業並發布。
- 如果 BigQuery 資料表和資料設定檔掃描作業位於不同專案中,您必須為相關聯的使用者或 Dataplex 通用目錄服務帳戶,授予對應 BigQuery 資料表的讀取權限
bigquery.tables.getData
(或 BigQuery 資料檢視者 角色)。如要取得服務帳戶的服務身分,請參閱事前準備。 - 如果您要掃描 Cloud Storage 中的 BigQuery 外部資料表,請將 Cloud Storage 角色 (
roles/storage.objectViewer
) 指派給 Dataplex 通用目錄服務帳戶。
Dataplex 通用目錄角色
- 專案層級的 Dataplex DataScan 管理員 - 用於建立掃描作業。
- 掃描作業的 Dataplex DataScan 編輯器:編輯掃描作業的任何屬性 (除了權限)、執行掃描作業,以及刪除掃描作業。
- Dataplex DataScan 資料檢視器,查看掃描結果。
這些角色包含先前用途所需的權限。如要查看確切的必要權限,請展開「必要權限」部分。
所需權限
如要使用資料剖析掃描的各項功能,必須具備下列權限:
- 如要變更資料掃描的設定,請按照下列步驟操作:
dataplex.datascans.update
- 在資料掃描資源上 - 如要變更資料掃描的政策,請按照下列步驟操作:
dataplex.datascans.setIamPolicy
- 在資料掃描資源上 - 如要在 BigQuery 資料表上建立資料掃描作業,請按照下列步驟操作:
bigquery.tables.getData
- 要掃描的資料表 - 如要在專案中建立資料掃描作業,請按照下列步驟操作:
dataplex.datascans.create
- 在專案中 - 如要刪除資料掃描作業,請按照下列步驟操作:
dataplex.datascans.delete
- 在資料掃描資源上 - 如要將資料掃描結果匯出至 BigQuery 資料集,請使用以下參數:
bigquery.datasets.get
、bigquery.tables.create
、bigquery.tables.get
、bigquery.tables.update
、bigquery.tables.updateData
- 目的地資料集 - 如要將資料掃描結果發布到資料表,請按照下列步驟操作:
bigquery.tables.update
- 目的地資料表 - 如要執行資料掃描作業,請在資料掃描資源上執行
dataplex.datascans.run
- 如要掃描 Cloud Storage 中的外部資料表,請使用:
storage.buckets.get
、storage.objects.get
- 包含要掃描的資料表的值區 - 如要查看資料掃描結果,請按照下列步驟操作:
dataplex.datascans.getData
- 在資料掃描資源上 - 如要查看資料掃描結果,請在 DataScan 資源上執行
dataplex.datascans.get
: - 如要查看資料掃描結果,請在 DataScan 資源上執行
dataplex.datascans.list
建立資料剖析掃描作業
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,按一下資料設定檔掃描作業的資料表。
按一下「資料設定檔」分頁標籤。
依序點選「資料剖析檔掃描」>「建立新掃描作業」。
選用:編輯下列值:
- 顯示名稱:主控台中可變更的資源名稱。
- ID:掃描作業的專屬 ID。掃描建立後即無法變更。
- 說明:掃描作業的說明。
- 區域:定義資料掃描作業的處理區域。
- 範圍:可供掃描的資料範圍。選取「增量」或「整筆資料」。如果您選擇「增量」,建議您加入以線性方式遞增的
DATE
或TIMESTAMP
欄。這個欄可用來識別新記錄。如果資料表是以DATE
或TIMESTAMP
型別的資料欄進行分區,建議您將分區欄用做時間戳記欄位。 - 篩選器:在掃描執行前套用至資料的篩選器。您可以選取「篩選資料列」、「篩選資料欄」,或同時選取兩者。
- 如要篩選資料列,請選取「篩選資料列」核取方塊,然後在輸入文字欄位中輸入有效的 SQL 運算式。運算式必須使用 BigQuery 標準 SQL 語法,且可用於
WHERE
子句。 - 如要篩選資料欄,請選取「篩選資料欄」核取方塊,然後填入「包含資料欄」欄位和/或「排除資料欄」欄位。
- 如要篩選資料列,請選取「篩選資料列」核取方塊,然後在輸入文字欄位中輸入有效的 SQL 運算式。運算式必須使用 BigQuery 標準 SQL 語法,且可用於
- 取樣大小:您要取樣的資料百分比。對於增量資料掃描,系統只會抽樣最新的增量資料。
- 將結果發布至 BigQuery 和 Dataplex Catalog UI:這個選項會在 BigQuery UI 中,在來源資料表的「資料剖析」分頁下,提供資料剖析掃描作業的最新結果。如果掃描作業正在執行且已設為發布,這個選項可能無法使用。
- 排程:可選擇「按需求」 (預設) 或「重複」。如果選取「重複」,請指定定期掃描作業的頻率,例如「每日」、「每週」、「每月」或「自訂」。自訂排程會使用 cron 時間格式指定排程。舉例來說,如果掃描作業設定為在每月第二個星期二上午 1:00 執行,其格式會像這樣:
0 1 8-14 * 2
。
選用步驟:如要繼續顯示其他選用設定,請按一下「繼續」,然後編輯下列值:
視需要點選下列其中一個按鈕:
- 如要儲存掃描設定,請按一下「建立」。
- 如要儲存並執行掃描作業,請按一下「執行」。
管理資料剖析掃描權限
如要變更現有設定檔掃描作業的存取權限,請按照下列步驟操作:
前往 BigQuery 頁面。
在「Explorer」窗格中,選取資料設定檔掃描的資料表。
按一下「資料設定檔」分頁標籤。
依序按一下「資料設定檔掃描」>「管理掃描權限」。系統會在新分頁中開啟 Dataplex 通用目錄。
按一下「Permissions」(權限) 分頁標籤。
- 如要將存取權授予主體,請按一下 「授予存取權」,然後將「Dataplex DataScan DataViewer」授予相關主體。
- 如要從主體移除存取權,請按一下 「移除存取權」,然後從相關主體移除 Dataplex DataScan DataViewer。
編輯現有的資料剖析掃描作業
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取要掃描資料設定檔的資料表。
依序按一下「資料剖析掃描」>「編輯掃描設定」。
這會開啟資料剖析掃描設定,您可以修改並儲存這些設定,以利日後的掃描作業。
查看資料剖析掃描結果
您可以透過多種方式查看資料剖析掃描結果。請選取最符合需求的選項。
查看已發布的結果
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取資料設定檔掃描作業的資料表。
按一下「資料設定檔」分頁標籤。
這個檢視畫面會顯示最近發布的結果。
查看歷來掃描結果
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取資料設定檔掃描的資料表。
按一下「資料設定檔」分頁標籤。
依序點選「資料檔案掃描」>「查看歷來結果」。
查看資料表中的所有資料剖析掃描
如要開啟 Dataplex 通用目錄,並查看特定資料表的掃描記錄,請執行下列操作:
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取要掃描資料設定檔的資料表。
依序點選「資料剖析掃描」>「查看所有掃描」。
後續步驟
- 瞭解如何生成資料洞察以探索資料。