Configurer des ensembles de données externes
Cette page décrit une étape facultative permettant de configurer des ensembles de données externes pour le déploiement de la Data Foundation du framework Cortex. Certains cas d'utilisation avancés peuvent nécessiter des ensembles de données externes pour compléter un système d'enregistrement d'entreprise. En plus des échanges externes consommés à partir du partage BigQuery (anciennement Analytics Hub), certains ensembles de données peuvent nécessiter des méthodes personnalisées ou adaptées pour ingérer les données et les joindre aux modèles de rapports.
Pour activer les ensembles de données externes suivants, définissez k9.deployDataset
sur True
si vous souhaitez que l'ensemble de données soit déployé.
Configurez les DAG (graphes orientés acycliques) pour les ensembles de données externes compatibles en procédant comme suit :
Calendrier des jours fériés : ce DAG récupère les dates spéciales à partir de PyPi Holidays.
- Ajustez la liste des pays, la liste des années et les autres paramètres du DAG pour récupérer les jours fériés dans
holiday_calendar.ini
.
- Ajustez la liste des pays, la liste des années et les autres paramètres du DAG pour récupérer les jours fériés dans
Tendances : ce DAG récupère l'intérêt au fil du temps pour un ensemble spécifique de termes à partir des tendances de la recherche Google. Les conditions peuvent être configurées dans
trends.ini
.- Après une première exécution, définissez
start_date
sur'today 7-d'
danstrends.ini
. - Familiarisez-vous avec les résultats des différents termes pour ajuster les paramètres.
- Nous vous recommandons de partitionner les grandes listes en plusieurs copies de ce DAG s'exécutant à des moments différents.
- Pour en savoir plus sur la bibliothèque sous-jacente utilisée, consultez Pytrends.
- Après une première exécution, définissez
Météo : par défaut, ce DAG utilise l'ensemble de données de test
BigQuery-public-data.geo_openstreetmap.planet_layers
accessible au public. La requête s'appuie également sur un ensemble de données NOAA disponible uniquement via le partage :noaa_global_forecast_system
.Cet ensemble de données doit être créé dans la même région que les autres ensembles de données avant l'exécution du déploiement. Si les ensembles de données ne sont pas disponibles dans votre région, vous pouvez suivre les instructions ci-dessous pour transférer les données dans la région de votre choix :
- Accédez à la page Partage (Analytics Hub).
- Cliquez sur Fiches de recherche.
- Recherchez NOAA Global Forecast System.
- Cliquez sur S'abonner.
- Lorsque vous y êtes invité, conservez
noaa_global_forecast_system
comme nom de l'ensemble de données. Si nécessaire, ajustez le nom de l'ensemble de données et de la table dans les clauses FROM deweather_daily.sql
. - Répétez la recherche de fiche pour l'ensemble de données
OpenStreetMap Public Dataset
. - Ajustez les clauses
FROM
contenantBigQuery-public-data.geo_openstreetmap.planet_layers
danspostcode.sql
.
Insights sur la durabilité et l'ESG : Cortex Framework combine les données sur les performances des fournisseurs SAP avec des insights ESG avancés pour comparer les performances de livraison, la durabilité et les risques de manière plus holistique dans les opérations mondiales. Pour en savoir plus, consultez la source de données Dun & Bradstreet.
Éléments généraux à prendre en compte
Le partage n'est disponible que dans les emplacements de l'UE et des États-Unis. De plus, certains ensembles de données, comme les prévisions mondiales de la NOAA, ne sont proposés que dans un seul emplacement multirégional.
Si vous ciblez un emplacement différent de celui disponible pour l'ensemble de données requis, nous vous recommandons de créer une requête programmée pour copier les nouveaux enregistrements à partir de l'ensemble de données associé au partage, puis d'utiliser un service de transfert pour copier ces nouveaux enregistrements dans un ensemble de données situé dans le même emplacement ou la même région que le reste de votre déploiement. Vous devez ensuite ajuster les fichiers SQL.
Avant de copier ces DAG dans Cloud Composer, ajoutez les modules Python requis en tant que dépendances :
Required modules: pytrends~=4.9.2 holidays