Configurar conjuntos de dados externos

Esta página descreve uma etapa opcional para configurar conjuntos de dados externos para a implantação da Data Foundation do Cortex Framework. Alguns casos de uso avançados podem exigir conjuntos de dados externos para complementar um sistema empresarial de registro. Além das trocas externas consumidas pelo compartilhamento do BigQuery (antigo Analytics Hub), alguns conjuntos de dados podem precisar de métodos personalizados ou adaptados para ingerir e combinar dados com os modelos de relatórios.

Para ativar os seguintes conjuntos de dados externos, defina k9.deployDataset como True se quiser que o conjunto de dados seja implantado.

Configure os grafos acíclicos dirigidos (DAGs) para os conjuntos de dados externos compatíveis seguindo estas etapas:

  1. Agenda de feriados:esse DAG recupera as datas especiais de PyPi Holidays.

    1. Ajuste a lista de países, a lista de anos e outros parâmetros de DAG para extrair feriados em holiday_calendar.ini.
  2. Tendências: esse DAG recupera o interesse ao longo do tempo para um conjunto específico de termos das tendências da Pesquisa Google. Os termos podem ser configurados em trends.ini.

    1. Após uma execução inicial, ajuste o start_date para 'today 7-d' em trends.ini.
    2. Familiarize-se com os resultados dos diferentes termos para ajustar os parâmetros.
    3. Recomendamos particionar listas grandes em várias cópias desse DAG executadas em momentos diferentes.
    4. Para mais informações sobre a biblioteca usada, consulte Pytrends.
  3. Clima: por padrão, esse DAG usa o conjunto de dados de teste disponível publicamente BigQuery-public-data.geo_openstreetmap.planet_layers. A consulta também depende de um conjunto de dados da NOAA disponível apenas pelo compartilhamento: noaa_global_forecast_system.

    Esse conjunto de dados precisa ser criado na mesma região que os outros conjuntos antes da execução da implantação. Se os conjuntos de dados não estiverem disponíveis na sua região, siga estas instruções para transferir os dados para a região escolhida:

    1. Acesse a página Compartilhamento (Analytics Hub).
    2. Clique em Pesquisar fichas.
    3. Pesquise Sistema de previsão global da NOAA.
    4. Clique em Assinar.
    5. Quando solicitado, mantenha noaa_global_forecast_system como o nome do conjunto de dados. Se necessário, ajuste o nome do conjunto de dados e da tabela nas cláusulas FROM em weather_daily.sql.
    6. Repita a pesquisa de página "Detalhes do app" para o conjunto de dados OpenStreetMap Public Dataset.
    7. Ajuste as cláusulas FROM que contêm: BigQuery-public-data.geo_openstreetmap.planet_layers em postcode.sql.
  4. Insights de sustentabilidade e ESG: o Cortex Framework combina dados de desempenho de fornecedores da SAP com insights avançados de ESG para comparar a performance de entrega, a sustentabilidade e os riscos de maneira mais holística em operações globais. Para mais informações, consulte a fonte de dados da Dun & Bradstreet.

Considerações gerais

  • O compartilhamento está disponível apenas em locais da UE e dos EUA, e alguns conjuntos de dados, como a previsão global da NOAA, são oferecidos em um único local.

    Se você estiver segmentando um local diferente daquele disponível para o conjunto de dados necessário, recomendamos criar uma consulta programada para copiar os novos registros do conjunto de dados vinculado ao compartilhamento, seguida de um serviço de transferência para copiar esses novos registros em um conjunto de dados localizado no mesmo local ou região do restante da implantação. Em seguida, ajuste os arquivos SQL.

  • Antes de copiar esses DAGs para o Cloud Composer, adicione os módulos Python necessários como dependências:

    Required modules:
    pytrends~=4.9.2
    holidays