Considerações da linhagem de dados

Este documento fornece informações sobre a compliance e as limitações da linhagem de dados. A linhagem de dados é ativada por projeto, não por sistema. Isso significa que, depois de ativar a API Data Lineage, as informações de linhagem podem ser geradas automaticamente para vários sistemas no projeto, dependendo do controle de linhagem no nível do produto de cada sistema.

O rastreamento automático de linhagem é compatível com os seguintes sistemas:

Controles de linhagem no nível do produto em Google Cloud sistemas compatíveis
Sistema Controles de linhagem disponíveis
BigQuery,
Cloud Data Fusion
Não há capacidade de configuração para restringir o rastreamento de linhagem apenas ao Cloud Data Fusion ou ao BigQuery quando a API Data Lineage está ativada em um projeto.
Cloud Composer O Cloud Composer usa o controle de integração da linhagem de dados no nível do ambiente. A linhagem de dados é ativada automaticamente para todos os novos ambientes do Cloud Composer, desde que atendam aos requisitos. Consulte Linhagem de dados com o Dataplex Universal Catalog para mais informações. Para ambientes atuais, é possível ativar ou desativar a integração do linhagem de dados nas configurações do ambiente.
Dataflow Os jobs do Dataflow podem capturar eventos de linhagem e publicá-los na API Data Lineage. Consulte Usar a linhagem de dados no Dataflow para mais informações.
Dataproc Os jobs do Spark do Dataproc podem capturar eventos de linhagem e publicá-los na API Data Lineage. Consulte Integração da linhagem de dados com o Dataproc para mais informações.
Vertex AI A linhagem de dados é ativada automaticamente para artefatos e parâmetros da Vertex AI, como modelos, conjuntos de dados, modelos de pipeline e componentes. A linhagem de um pipeline inclui fatores que contribuíram para a criação dele, bem como artefatos e metadados derivados posteriormente. Consulte Rastrear a linhagem de artefatos de pipeline para mais informações.

Impacto no faturamento

Ao ativar a API Data Lineage em um projeto, analise o impacto nas cobranças de faturamento, já que a API é ativada por projeto. Consulte a seção anterior para mais detalhes. Para mais informações sobre como a linhagem de dados é cobrada, consulte Preços do Dataplex Universal Catalog.

No BigQuery Omni, o processamento de linhagem é distribuído para regiões específicas, e os custos dependem das regiões em que o processamento é realizado.

Compliance da linhagem de dados

  • A linhagem de dados registra metadados sobre a movimentação de dados, mas não captura os dados em si. Consulte o modelo de informações de linhagem de dados e a referência da API Data Lineage para detalhes sobre quais campos estão incluídos nos metadados.
  • A linhagem de dados como parte do Catálogo Universal do Dataplex oferece suporte ao VPC-SC.
  • O Dataplex Universal Catalog não oferece a capacidade de usar chaves de criptografia gerenciadas pelo cliente para proteger os metadados de linhagem coletados.

Limitações da linhagem de dados

Quando você seleciona um nó no gráfico de linhagem, o painel lateral de detalhes do nó fica vazio quando:

  1. os recursos estão localizados em outra organização; ou
  2. o usuário não é membro da organização que hospeda o recurso.