Mengonfigurasi set data eksternal

Halaman ini menjelaskan langkah opsional untuk mengonfigurasi set data eksternal untuk deployment Data Foundation Cortex Framework. Beberapa kasus penggunaan lanjutan mungkin memerlukan set data eksternal untuk melengkapi sistem pencatatan perusahaan. Selain pertukaran eksternal yang digunakan dari berbagi BigQuery (sebelumnya Analytics Hub), beberapa set data mungkin memerlukan metode kustom atau yang disesuaikan untuk menyerap data dan menggabungkannya dengan model pelaporan.

Untuk mengaktifkan set data eksternal berikut, tetapkan k9.deployDataset ke True jika Anda ingin Set Data di-deploy.

Konfigurasi Directed Acyclic Graphs (DAG) untuk set data eksternal yang didukung dengan mengikuti langkah-langkah berikut:

  1. Kalender Hari Libur: DAG ini mengambil tanggal khusus dari PyPi Holidays.

    1. Sesuaikan daftar negara, daftar tahun, serta parameter DAG lainnya untuk mengambil hari libur di holiday_calendar.ini.
  2. Tren: DAG ini mengambil Minat dari Waktu ke Waktu untuk serangkaian istilah tertentu dari tren Google Penelusuran. Persyaratan dapat dikonfigurasi di trends.ini.

    1. Setelah menjalankan pertama kali, sesuaikan start_date ke 'today 7-d' di trends.ini.
    2. Pahami hasil yang berasal dari berbagai istilah untuk menyesuaikan parameter.
    3. Sebaiknya partisi daftar besar ke beberapa salinan DAG ini yang berjalan pada waktu yang berbeda.
    4. Untuk mengetahui informasi selengkapnya tentang library pokok yang digunakan, lihat Pytrends.
  3. Cuaca: Secara default, DAG ini menggunakan set data pengujian BigQuery-public-data.geo_openstreetmap.planet_layers yang tersedia secara publik. Kueri ini juga mengandalkan set data NOAA yang hanya tersedia melalui Berbagi: noaa_global_forecast_system.

    Set data ini harus dibuat di region yang sama dengan set data lainnya sebelum menjalankan deployment. Jika set data tidak tersedia di region Anda, Anda dapat melanjutkan dengan petunjuk berikut untuk mentransfer data ke region yang dipilih:

    1. Buka halaman Berbagi (Analytics Hub).
    2. Klik Telusuri listingan.
    3. Telusuri NOAA Global Forecast System.
    4. Klik Langganan.
    5. Saat diminta, biarkan noaa_global_forecast_system sebagai nama set data. Jika perlu, sesuaikan nama set data dan tabel dalam klausa FROM di weather_daily.sql.
    6. Ulangi penelusuran listingan untuk Set Data OpenStreetMap Public Dataset.
    7. Sesuaikan klausa FROM yang berisi: BigQuery-public-data.geo_openstreetmap.planet_layers di postcode.sql.
  4. Insight ESG dan keberlanjutan: Cortex Framework menggabungkan data performa pemasok SAP dengan insight ESG lanjutan untuk membandingkan performa pengiriman, keberlanjutan, dan risiko secara lebih holistik di seluruh operasi global. Untuk mengetahui informasi selengkapnya, lihat sumber data Dun & Bradstreet.

Pertimbangan umum

  • Berbagi hanya didukung di lokasi Uni Eropa dan AS, dan beberapa set data, seperti NOAA Global Forecast, hanya ditawarkan di satu lokasi multi.

    Jika Anda menargetkan lokasi yang berbeda dengan lokasi yang tersedia untuk set data yang diperlukan, sebaiknya buat kueri terjadwal untuk menyalin rekaman baru dari set data tertaut Berbagi, lalu gunakan layanan transfer untuk menyalin rekaman baru tersebut ke set data yang berada di lokasi atau region yang sama dengan deployment Anda lainnya. Kemudian, Anda perlu menyesuaikan file SQL.

  • Sebelum menyalin DAG ini ke Cloud Composer, tambahkan modul python yang diperlukan sebagai dependensi:

    Required modules:
    pytrends~=4.9.2
    holidays