Configurare i set di dati esterni

Questa pagina descrive un passaggio facoltativo per configurare i set di dati esterni per il deployment di Data Foundation di Cortex Framework. Alcuni casi d'uso avanzati potrebbero richiedere set di dati esterni per integrare un sistema aziendale di record. Oltre agli scambi esterni utilizzati da BigQuery sharing (in precedenza Analytics Hub), alcuni set di dati potrebbero richiedere metodi personalizzati o su misura per importare i dati e unirli ai modelli di reporting.

Per attivare i seguenti set di dati esterni, imposta k9.deployDataset su True se vuoi che il set di dati venga implementato.

Configura i grafi aciclici diretti (DAG) per i set di dati esterni supportati seguendo questi passaggi:

  1. Calendario delle festività:questo DAG recupera le date speciali da PyPi Holidays.

    1. Modifica l'elenco dei paesi, l'elenco degli anni e altri parametri DAG per recuperare le festività in holiday_calendar.ini.
  2. Tendenze: questo DAG recupera l'interesse nel tempo per un insieme specifico di termini dalle tendenze della Ricerca Google. I termini possono essere configurati in trends.ini.

    1. Dopo una prima esecuzione, regola start_date su 'today 7-d' in trends.ini.
    2. Familiarizza con i risultati ottenuti dai diversi termini per regolare i parametri.
    3. Consigliamo di partizionare le liste di grandi dimensioni in più copie di questo DAG in esecuzione in momenti diversi.
    4. Per saperne di più sulla libreria sottostante utilizzata, consulta Pytrends.
  3. Meteo: per impostazione predefinita, questo DAG utilizza il set di dati di test disponibile pubblicamente BigQuery-public-data.geo_openstreetmap.planet_layers. La query si basa anche su un set di dati NOAA disponibile solo tramite la condivisione: noaa_global_forecast_system.

    Questo set di dati deve essere creato nella stessa regione degli altri set di dati prima di eseguire il deployment. Se i set di dati non sono disponibili nella tua regione, puoi continuare con le seguenti istruzioni per trasferire i dati nella regione scelta:

    1. Vai alla pagina Condivisione (Analytics Hub).
    2. Fai clic su Schede di ricerca.
    3. Cerca NOAA Global Forecast System.
    4. Fai clic su Abbonati.
    5. Quando ti viene chiesto, mantieni noaa_global_forecast_system come nome del set di dati. Se necessario, modifica il nome del set di dati e della tabella nelle clausole FROM in weather_daily.sql.
    6. Ripeti la ricerca della scheda per il set di dati OpenStreetMap Public Dataset.
    7. Modifica le clausole FROM contenenti: BigQuery-public-data.geo_openstreetmap.planet_layers in postcode.sql.
  4. Approfondimenti su sostenibilità e ESG: Cortex Framework combina i dati sul rendimento dei fornitori SAP con approfondimenti ESG avanzati per confrontare in modo più olistico il rendimento delle consegne, la sostenibilità e i rischi nelle operazioni globali. Per ulteriori informazioni, consulta la fonte di dati Dun & Bradstreet.

Considerazioni generali

  • La condivisione è supportata solo nelle località UE e Stati Uniti e alcuni set di dati, come NOAA Global Forecast, sono offerti solo in una singola località multipla.

    Se scegli come target una località diversa da quella disponibile per il set di dati richiesto, ti consigliamo di creare una query pianificata per copiare i nuovi record dal set di dati collegato alla condivisione, seguita da un servizio di trasferimento per copiare questi nuovi record in un set di dati che si trova nella stessa località o regione del resto del deployment. Dopodiché, devi modificare i file SQL.

  • Prima di copiare questi DAG in Cloud Composer, aggiungi i moduli Python richiesti come dipendenze:

    Required modules:
    pytrends~=4.9.2
    holidays