步驟 3:決定整合機制
本頁說明部署 Cortex Framework 資料基礎的第三個步驟,這是 Cortex Framework 的核心。在這個步驟中,您將設定與所選資料來源的整合。如果使用範例資料,請略過這個步驟。
整合作業總覽
Cortex Framework 可協助您集中管理各種來源的資料,以及其他平台。這樣一來,您就能取得單一可靠的資料來源。Cortex Data Foundation 會以不同方式整合各個資料來源,但大多數都遵循類似程序:
- 來源到原始層:使用 API 從資料來源擷取資料到原始資料集。方法是使用透過 Cloud Composer DAG 觸發的 Dataflow 管道。
- 原始層到 CDC 層:對原始資料集套用 CDC 處理程序,並將輸出內容儲存在 CDC 資料集中。這是透過執行 BigQuery SQL 的 Cloud Composer DAG 達成。
- CDC 層到報表層:從報表資料集中的 CDC 資料表建立最終報表資料表。方法是在 CDC 資料表上建立執行階段檢視區塊,或在 BigQuery 資料表中執行 Cloud Composer DAG,以實現具體化的資料 (視設定方式而定)。如要進一步瞭解設定,請參閱「自訂報表設定檔」。
config.json
檔案會設定連線至資料來源所需的設定,以便從各種工作負載移轉資料。如要瞭解各資料來源的整合選項,請參閱下列資源。
- 營運:
- 行銷:
- 永續發展:
如要進一步瞭解各資料來源支援的實體關係圖,請參閱 Cortex Framework Data Foundation 存放區中的 docs
資料夾。
K9 部署作業
K9 部署工具可簡化各種資料來源的整合作業。K9 部署工具是 BigQuery 環境中預先定義的資料集,負責擷取、處理及模擬可在不同資料來源重複使用的元件。
舉例來說,如果資料表可能需要根據公曆取得分析結果,則 time
維度可重複用於所有資料來源。K9 部署工具會整合天氣或 Google 搜尋趨勢等外部資料,以及其他資料來源 (例如 SAP、Salesforce、行銷)。這個經過擴充的資料集可提供更深入的洞察資料,以及更全面的分析結果。
下圖顯示資料從不同原始來源流向各種報表層的流程:
在圖表中,「來源專案」包含所選資料來源 (SAP、Salesforce 和 Marketing) 的原始資料。目標專案則包含從變更資料擷取 (CDC) 流程衍生的處理後資料。
預先處理 K9 步驟會在所有工作負載開始部署前執行,因此可重複使用的模型會在部署期間提供。這個步驟會轉換各種來源的資料,建立一致且可重複使用的資料集。
所有工作負載部署完畢後,系統會執行後續處理 K9 步驟,啟用跨工作負載報表功能,或擴增模型,在每個報表資料集中找出必要依附元件。
設定 K9 部署作業
在 K9 資訊清單檔案中,設定要產生的有向非循環圖 (DAG) 和模型。
K9 前置處理步驟非常重要,因為可確保資料管道中的所有工作負載都能存取一致準備的資料。這可減少重複作業,並確保資料一致性。
如要進一步瞭解如何為 K9 設定外部資料集,請參閱「為 K9 設定外部資料集」。
後續步驟
完成這個步驟後,請繼續執行下列部署步驟: