Conceitos da malha de dados
Antes de conferir o guia detalhado sobre como implantar a malha de dados com o Google Cloud Cortex Framework, esta página oferece uma base de como os conceitos relevantes da malha de dados são geralmente implementados em um produto Google Cloud e especificamente com o contexto do Cortex Framework. Depois de entender os conceitos da malha de dados, consulte o Guia do usuário da malha de dados para a base de dados do framework Cortex.
Dataplex Universal Catalog
A tabela a seguir define os conceitos de malha de dados no Dataplex Universal Catalog:
Conceito | Descrição | Contexto do Cortex Framework |
Lago | Unidade de nível superior para organizar dados em uma malha de dados. Gerenciar Dataplex Universal Catalog - Lakes. | Uma fonte de dados, por exemplo, SAP ECC , Salesforce , Google Ads .
|
Zona | Unidade de segundo nível para organizar dados em um lake. | Camadas de processamento específicas em uma fonte de dados, como dados brutos x CDC. |
Recurso do Dataplex Universal Catalog | Referência a dados armazenados no Cloud Storage ou no BigQuery associados a uma zona. Essa é uma referência ao ativo de dados, não aos dados em si. | Referência a conjuntos de dados do BigQuery registrados em zonas. |
Rótulo | Pares de chave-valor arbitrários que podem ser aplicados a data lakes ou zonas. | Rotule lakes ou zonas inteiras (em vez de tabelas ou colunas) com metadados que podem ser visualizados no Dataplex Universal Catalog ou usados para aplicativos personalizados. |
Data Catalog | Metadados técnicos de negócios que podem ser usados para ajudar a descobrir, entender ou gerenciar recursos de dados em um data warehouse. | Anotar tabelas ou colunas (em vez de lakes ou zonas) com tags de metadados avançados que podem ser usadas na pesquisa do Dataplex Universal Catalog ou em aplicativos personalizados. |
Modelos de tag do catálogo | Um modelo que define os campos disponíveis e os tipos deles em uma tag. Gerenciar Modelos de tag do Dataplex Universal Catalog | Defina um conjunto de modelos para usos como marcar recursos de dados com linhas de negócios. |
Tag do catálogo | Um conjunto de campos e valores que contêm metadados aplicáveis a uma tabela ou coluna. Uma instância de um modelo de tag. | Anotar uma tabela ou coluna com valores de metadados relevantes para esse recurso, como uma linha de negócios específica. |
Glossário do catálogo | Um dicionário de termos que podem ser definidos e associados a colunas do BigQuery. Gerenciar Dataplex Universal Catalog - Glossários. | Defina termos ou acrônimos usados em Ativos do BigQuery. Isso está planejado para o futuro, mas ainda não é compatível. |
Linhagem de dados | Um gráfico que representa as dependências de recursos do BigQuery. | Elas não são definidas pela malha de dados do Cortex, mas são uma ferramenta relevante do catálogo universal do Dataplex para ajudar os usuários a descobrir fontes de dados de recursos do BigQuery. |
Evento de linhagem | Um ponto no tempo em que uma operação ocorreu para mover dados entre recursos do BigQuery. Contém uma lista de links. | Criados automaticamente para operações compatíveis do BigQuery e do Composer. |
Link de linhagem | Uma aresta que representa o fluxo de dados de um recurso de origem para um de destino como parte de um evento de linhagem. | Ele pode ser analisado para oferecer suporte a casos de uso além dos gráficos de visualização de linhagem apresentados no console. |
BigQuery
A tabela a seguir define os conceitos de malha de dados no BigQuery:
Conceito | Descrição | Contexto do Cortex Framework |
Taxonomia de políticas | Uma hierarquia de tags de política. Gerencie BigQuery - Tags de política. | Organize tags de política relacionadas que podem ser usadas para controle de acesso em uma hierarquia com permissões herdadas. |
Tag de política | Uma tag aplicada a colunas específicas em uma tabela ou visualização do BigQuery. Tags de política em qualquer nível da hierarquia podem ser aplicadas. Só é possível aplicar uma tag de política a uma coluna específica. | Anotar colunas com tags usadas para controle de acesso no nível da coluna. Os principais na tag de política definem leitores "refinados" ou "não mascarados" que podem acessar os dados brutos da coluna. |
Política de dados | Políticas aplicadas a uma tag de política que definem como e quem pode acessar os dados da coluna mascarada. | Os principais na política de dados definem os "leitores mascarados" que podem acessar os dados de colunas mascaradas. Quem não tiver privilégios de leitor mascarados ou não mascarados não poderá consultar a coluna. |
Regra de mascaramento | Regras aplicadas a uma política de dados que definem como os dados são mascarados, por exemplo, hash, exibição de um valor padrão, últimos quatro caracteres e outros. | Aplicado de acordo com a situação a colunas sensíveis. |
Política de acesso no nível da linha | Instruções SQL que definem quais grupos podem consultar linhas em tabelas com base em valores de coluna específicos. | Usado para controle de acesso no nível da linha quando o controle no nível do recurso e da coluna é insuficiente. |
Conceito de malha de dados do Cortex
A tabela a seguir define conceitos específicos da malha de dados no Cortex Framework:
Conceito | Descrição | Contexto do Cortex Framework |
Recurso de metadados | Entidades de metadados que podem ser reutilizadas em vários recursos do BigQuery. Por exemplo, lagos, modelos de tags do catálogo e taxonomias de políticas. Especificamente os metadados, e não os dados no BigQuery. | Define recursos reutilizáveis para permitir o gerenciamento consistente da malha de dados do Cortex. |
Recurso do BigQuery | Tabela ou visualização do BigQuery. | Objetos do BigQuery do Cortex que são governados com a malha de dados. |
Anotação de recursos do BigQuery | Metadados aplicados a uma tabela ou visualização específica do BigQuery. Isso inclui descrições, políticas de acesso e mapeamentos para recursos de metadados. | Associe metadados a recursos do BigQuery para ativar a descoberta e o controle de acesso. |
Especificação de recursos (spec) | Um arquivo YAML que define um recurso de metadados ou uma anotação de recurso do BigQuery. | O conjunto completo de especificações de recursos codifica a configuração da malha de dados a ser implantada. |