設定外部資料集

本頁面說明如何設定 Cortex Framework Data Foundation 部署作業的外部資料集 (選用步驟)。某些進階用途可能需要外部資料集,才能補足企業記錄系統。除了從 BigQuery sharing (舊稱 Analytics Hub) 取得的外部交換資料外,部分資料集可能需要自訂或量身打造的方法,才能擷取資料並與報表模型合併。

如要啟用下列外部資料集,請將 k9.deployDataset 設為 True, 以便部署資料集。

請按照下列步驟,為支援的外部資料集設定有向非循環圖 (DAG):

  1. 節慶日曆:這個 DAG 會從 PyPi Holidays 擷取特殊日期。

    1. 調整國家/地區清單、年份清單和其他 DAG 參數,即可在 holiday_calendar.ini 中擷取節慶日期。
  2. 趨勢:這個 DAG 會從 Google 搜尋趨勢,擷取特定字詞組合的搜尋熱度。您可以在 trends.ini 中設定這些條件。

    1. 首次執行後,請在 trends.ini 中將 start_date 調整為 'today 7-d'
    2. 熟悉不同字詞的結果,以便調整參數。
    3. 建議您將大型清單分割成多個副本,並在不同時間執行這些 DAG。
    4. 如要進一步瞭解使用的基礎程式庫,請參閱 Pytrends
  3. 天氣:根據預設,這個 DAG 會使用公開的測試資料集 BigQuery-public-data.geo_openstreetmap.planet_layers。這項查詢也依據 NOAA 資料集,但該資料集只能透過共用功能存取:noaa_global_forecast_system

    執行部署作業前,請務必在與其他資料集相同的區域中建立這個資料集。如果資料集在您所在區域無法使用,請按照下列指示將資料轉移至所選區域:

    1. 前往「Sharing (Analytics Hub)」頁面。
    2. 按一下「搜尋商家資訊」
    3. 搜尋「NOAA Global Forecast System」。
    4. 按一下「訂閱」
    5. 系統提示時,請保留 noaa_global_forecast_system 做為資料集名稱。視需要調整 weather_daily.sql 中 FROM 子句的資料集和資料表名稱。
    6. 針對資料集 OpenStreetMap Public Dataset 重複執行商店資訊搜尋。
    7. 調整包含下列項目的 FROM 子句: BigQuery-public-data.geo_openstreetmap.planet_layers postcode.sql
  4. 永續發展和 ESG 深入分析:Cortex Framework 結合 SAP 供應商的績效資料和進階 ESG 深入分析,更全面地比較全球營運的交貨績效、永續發展和風險。詳情請參閱鄧白氏資料來源

一般注意事項

  • 共用功能僅支援歐盟和美國地區,且部分資料集 (例如 NOAA Global Forecast) 僅在單一多地區提供。

    如果您指定的位置與必要資料集可用的位置不同,建議您建立排程查詢,從共用連結資料集複製新記錄,然後使用轉移服務將這些新記錄複製到與其餘部署項目位於相同位置或區域的資料集。接著,您需要調整 SQL 檔案。

  • 將這些 DAG 複製到 Cloud Composer 之前,請以依附元件的形式新增必要的 Python 模組:

    Required modules:
    pytrends~=4.9.2
    holidays