步驟 1:建立工作負載
本頁面將引導您完成設定資料基礎的初始步驟,這是 Cortex Framework 的核心。資料基礎架構以 BigQuery 儲存空間為基礎,可整理來自各種來源的輸入資料。這類有條理的資料可簡化分析作業,並應用於 AI 開發。
設定資料整合
首先定義一些重要參數,做為在 Cortex Framework 中有效率地整理及使用資料的藍圖。請注意,這些參數可能會因特定工作負載、所選資料流程和整合機制而異。下圖提供 Cortex Framework 資料基礎中的資料整合作業總覽:
部署前請定義下列參數,以便在 Cortex Framework 中有效率地運用資料。
專案
- 來源專案:原始資料所在的專案。您至少需要一個 Google Cloud 專案來儲存資料及執行部署程序。
- 目標專案 (選用):Cortex Framework Data Foundation 儲存已處理資料模型的專案。視需求而定,這可以是與來源專案相同的專案,也可以是不同的專案。
如要為每個工作負載分別建立專案和資料集 (例如,為 SAP 建立一組來源和目標專案,並為 Salesforce 建立另一組目標和來源專案),請為每個工作負載分別執行部署作業。詳情請參閱選用步驟一節中的「使用不同專案來區隔存取權」。
資料模型
- 部署模型:選擇是否要為所有工作負載部署模型,或只部署一組模型 (例如 SAP、Salesforce 和 Meta)。詳情請參閱「可用的資料來源和工作負載」。
BigQuery 資料集
- 來源資料集 (原始):來源資料複製到這個 BigQuery 資料集,或是建立測試資料。建議您為每個資料來源建立個別的資料集。舉例來說,一個是 SAP 專用的原始資料集,另一個是 Google Ads 專用的原始資料集。這個資料集屬於來源專案。
- CDC 資料集:BigQuery 資料集,其中包含 CDC 處理的資料,以及最新的可用記錄。部分工作負載可對應欄位名稱。建議為每個來源分別建立 CDC 資料集。舉例來說,您可以為 SAP 建立一個 CDC 資料集,並為 Salesforce 建立一個 CDC 資料集。這個資料集屬於來源專案。
- 目標報表資料集:部署 Data Foundation 預先定義資料模型的 BigQuery 資料集。建議為每個來源分別建立報表資料集。舉例來說,您可以為 SAP 建立一個報表資料集,並為 Salesforce 建立一個報表資料集。如果這個資料集不存在,系統會在部署期間自動建立。這個資料集屬於目標專案。
- 預先處理 K9 資料集:BigQuery 資料集,可部署跨工作負載、可重複使用的 DAG 元件,例如
time
維度。除非經過修改,否則工作負載會依附於這個資料集。如果這個資料集不存在,部署作業期間會自動建立。這個資料集屬於來源專案。 - 後續處理 K9 資料集:BigQuery 資料集,可部署跨工作負載報表和額外的外部來源 DAG (例如 Google 搜尋趨勢擷取)。如果這個資料集不存在,部署作業期間會自動建立。這個資料集屬於目標專案。
選用:產生範例資料
如果您無法存取自己的資料、沒有設定資料的複製工具,或只是想瞭解 Cortex Framework 的運作方式,Cortex Framework 都能為您產生範例資料和表格。不過,您仍須預先建立及識別 CDC 和原始資料集。
按照下列指示,為每個資料來源建立原始資料和 CDC 的 BigQuery 資料集。
控制台
在 Google Cloud 控制台中開啟 BigQuery 頁面。
在「Explorer」面板中,選取要建立資料集的專案。
展開「動作」選項,然後按一下「建立資料集」:
在「Create dataset」(建立資料集) 頁面:
點選「建立資料集」。
BigQuery
複製下列指令,為原始資料建立新的資料集:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
更改下列內容:
LOCATION
,並提供資料集的位置。- 將
SOURCE_PROJECT
改為來源專案 ID。 DATASET_RAW
,並將其設為原始資料的資料集名稱。例如:CORTEX_SFDC_RAW
。
複製下列指令,為 CDC 資料建立新的資料集:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
更改下列內容:
LOCATION
,並提供資料集的位置。- 將
SOURCE_PROJECT
改為來源專案 ID。 - 將
DATASET_CDC
替換為 CDC 資料的資料集名稱。例如:CORTEX_SFDC_CDC
。
執行下列指令,確認資料集已建立:
bq ls
(選用) 如要進一步瞭解如何建立資料集,請參閱建立資料集。
後續步驟
完成這個步驟後,請繼續執行下列部署步驟: