BigQuery 實體解析架構簡介

本文件說明 BigQuery 實體解析架構的架構。實體解析是指在沒有共同 ID 的共用資料中比對記錄,或是使用合作夥伴的 ID 服務擴充共用資料的能力。 Google Cloud

本文件適用對象為實體解析使用者 (以下簡稱「使用者」) 和身分識別提供者。如需實作詳細資訊,請參閱「在 BigQuery 中設定及使用實體解析功能」。

您可以使用 BigQuery 實體解析功能,處理在將資料提供至資料無塵室之前準備好的任何資料。實體解析功能適用於以量計價和容量計價兩種計費模式,以及所有 BigQuery 版本。

優點

實體解析功能可為使用者帶來下列好處:

  • 您可以在原地解析實體,而不會產生資料轉移費用,因為訂閱者或 Google Cloud 合作夥伴會將您的資料比對至其身分識別表,並將比對結果寫入專案中的資料集。
  • 您不需要管理擷取、轉換及載入 (ETL) 工作。

身為識別資訊提供者,您可以透過以下方式運用實體解析功能:

  • 您可以在 Google Cloud Marketplace 上,以代管軟體式服務 (SaaS) 提供實體解析功能。
  • 您可以使用自有的識別圖和比對邏輯,而無須向使用者揭露。

架構

BigQuery 會使用遠端函式呼叫,在身分識別提供者環境中啟用實體解析程序,藉此實現實體解析。在這個程序中,您不需要複製或移動資料。下圖和說明說明實體解析的工作流程:

圖表顯示兩個主要部分:使用者專案和身分識別提供者專案。

  1. 使用者授予身分提供者的服務帳戶讀取輸入資料集的權限,以及寫入輸出資料集的權限。
  2. 使用者會呼叫遠端函式,將輸入資料與提供者的身分圖資料比對。系統會透過遠端函式將相符的參數傳遞至提供者。
  3. 供應商的服務帳戶會讀取輸入資料集並加以處理。
  4. 供應商的服務帳戶會將實體解析結果寫入使用者的輸出資料集。

以下各節將說明終端使用者元件和供應者專案。

使用者元件

使用者元件包括:

  • 遠端函式呼叫:執行由身分識別資訊提供者定義及實作的程序的呼叫。這項呼叫會啟動實體解析程序。
  • 輸入資料集:包含要比對資料的來源資料集。資料集也可以包含含有額外參數的中繼資料表。供應者會指定輸入資料集的結構定義需求。
  • 輸出資料集:供應商將比對結果儲存為輸出表格的目的地資料集。供應商可以選擇將工作狀態表寫入此資料集,其中包含實體解析工作詳細資料。輸出資料集可以與輸入資料集相同。

識別資訊提供者元件

識別資訊提供者元件包括:

後續步驟