BigQuery 實體解析架構簡介
本文件說明 BigQuery 實體解析架構的架構。實體解析是指在沒有共同 ID 的共用資料中比對記錄,或是使用合作夥伴的 ID 服務擴充共用資料的能力。 Google Cloud
本文件適用對象為實體解析使用者 (以下簡稱「使用者」) 和身分識別提供者。如需實作詳細資訊,請參閱「在 BigQuery 中設定及使用實體解析功能」。
您可以使用 BigQuery 實體解析功能,處理在將資料提供至資料無塵室之前準備好的任何資料。實體解析功能適用於以量計價和容量計價兩種計費模式,以及所有 BigQuery 版本。
優點
實體解析功能可為使用者帶來下列好處:
- 您可以在原地解析實體,而不會產生資料轉移費用,因為訂閱者或 Google Cloud 合作夥伴會將您的資料比對至其身分識別表,並將比對結果寫入專案中的資料集。
- 您不需要管理擷取、轉換及載入 (ETL) 工作。
身為識別資訊提供者,您可以透過以下方式運用實體解析功能:
- 您可以在 Google Cloud Marketplace 上,以代管軟體式服務 (SaaS) 提供實體解析功能。
- 您可以使用自有的識別圖和比對邏輯,而無須向使用者揭露。
架構
BigQuery 會使用遠端函式呼叫,在身分識別提供者環境中啟用實體解析程序,藉此實現實體解析。在這個程序中,您不需要複製或移動資料。下圖和說明說明實體解析的工作流程:
- 使用者授予身分提供者的服務帳戶讀取輸入資料集的權限,以及寫入輸出資料集的權限。
- 使用者會呼叫遠端函式,將輸入資料與提供者的身分圖資料比對。系統會透過遠端函式將相符的參數傳遞至提供者。
- 供應商的服務帳戶會讀取輸入資料集並加以處理。
- 供應商的服務帳戶會將實體解析結果寫入使用者的輸出資料集。
以下各節將說明終端使用者元件和供應者專案。
使用者元件
使用者元件包括:
- 遠端函式呼叫:執行由身分識別資訊提供者定義及實作的程序的呼叫。這項呼叫會啟動實體解析程序。
- 輸入資料集:包含要比對資料的來源資料集。資料集也可以包含含有額外參數的中繼資料表。供應者會指定輸入資料集的結構定義需求。
- 輸出資料集:供應商將比對結果儲存為輸出表格的目的地資料集。供應商可以選擇將工作狀態表寫入此資料集,其中包含實體解析工作詳細資料。輸出資料集可以與輸入資料集相同。
識別資訊提供者元件
識別資訊提供者元件包括:
- 控制平面:包含用於協調配對程序的 BigQuery 遠端函式。這個函式可實作為 Cloud Run 工作或 Cloud Run 函式。控制層也可能包含其他服務,例如驗證和授權。
- 資料層:包含身分圖資料集和實作提供者比對邏輯的儲存程序。預存程序可以實作為 SQL 預存程序或 Apache Spark 預存程序。身分圖資料集包含用於比對使用者資料的資料表。
後續步驟
- 如要瞭解如何在專案中使用實體解析,請參閱「在 BigQuery 中設定及使用實體解析」。