Configura conjuntos de datos externos

En esta página, se describe un paso opcional para configurar conjuntos de datos externos para la implementación de la base de datos de Cortex Framework. Algunos casos de uso avanzados pueden requerir conjuntos de datos externos para complementar un sistema de registros empresariales. Además de los intercambios externos que se consumen desde BigQuery sharing (anteriormente Analytics Hub), algunos conjuntos de datos pueden necesitar métodos personalizados o adaptados para ingerir datos y unirlos con los modelos de informes.

Para habilitar los siguientes conjuntos de datos externos, establece k9.deployDataset en True si deseas que se implemente el conjunto de datos.

Configura los grafos acíclicos dirigidos (DAG) para los conjuntos de datos externos admitidos siguiendo estos pasos:

  1. Calendario de días feriados: Este DAG recupera las fechas especiales de PyPi Holidays.

    1. Ajusta la lista de países, la lista de años y otros parámetros del DAG para recuperar los días feriados en holiday_calendar.ini.
  2. Tendencias: Este DAG recupera el Interés a lo largo del tiempo para un conjunto específico de términos de las tendencias de la Búsqueda de Google. Los términos se pueden configurar en trends.ini.

    1. Después de una ejecución inicial, ajusta start_date a 'today 7-d' en trends.ini.
    2. Familiarízate con los resultados que arrojan los diferentes términos para ajustar los parámetros.
    3. Te recomendamos que dividas las listas grandes en varias copias de este DAG que se ejecuten en diferentes momentos.
    4. Para obtener más información sobre la biblioteca subyacente que se usa, consulta Pytrends.
  3. Clima: De forma predeterminada, este DAG usa el conjunto de datos de prueba BigQuery-public-data.geo_openstreetmap.planet_layers disponible de forma pública. La consulta también se basa en un conjunto de datos de la NOAA que solo está disponible a través de Sharing: noaa_global_forecast_system.

    Este conjunto de datos debe crearse en la misma región que los demás conjuntos de datos antes de ejecutar la implementación. Si los conjuntos de datos no están disponibles en tu región, puedes continuar con las siguientes instrucciones para transferir los datos a la región elegida:

    1. Ve a la página Uso compartido (Analytics Hub).
    2. Haz clic en Buscar fichas.
    3. Busca NOAA Global Forecast System.
    4. Haz clic en Suscribirse.
    5. Cuando se te solicite, conserva noaa_global_forecast_system como el nombre del conjunto de datos. Si es necesario, ajusta el nombre del conjunto de datos y la tabla en las cláusulas FROM en weather_daily.sql.
    6. Repite la búsqueda de la ficha para el conjunto de datos OpenStreetMap Public Dataset.
    7. Ajusta las cláusulas FROM que contienen BigQuery-public-data.geo_openstreetmap.planet_layers en postcode.sql.
  4. Estadísticas sobre sustentabilidad y ESG: Cortex Framework combina los datos de rendimiento de los proveedores de SAP con estadísticas avanzadas sobre ESG para comparar el rendimiento de las entregas, la sustentabilidad y los riesgos de manera más integral en las operaciones globales. Para obtener más información, consulta la fuente de datos de Dun & Bradstreet.

Consideraciones generales

  • La compartición solo se admite en ubicaciones de la UE y EE.UU., y algunos conjuntos de datos, como el pronóstico global de la NOAA, solo se ofrecen en una sola ubicación múltiple.

    Si segmentas tus anuncios para una ubicación diferente de la disponible para el conjunto de datos requerido, te recomendamos que crees una consulta programada para copiar los registros nuevos del conjunto de datos vinculado de uso compartido y, luego, un servicio de transferencia para copiar esos registros nuevos en un conjunto de datos ubicado en la misma ubicación o región que el resto de tu implementación. Luego, debes ajustar los archivos SQL.

  • Antes de copiar estos DAG en Cloud Composer, agrega los módulos de Python necesarios como dependencias:

    Required modules:
    pytrends~=4.9.2
    holidays