Introdução à governança de dados no BigQuery

O BigQuery tem recursos de governança integrados que simplificam a descoberta, o gerenciamento, o monitoramento, a governança e o uso de dados e recursos de IA.

Administradores, administradores de dados, gerentes de governança de dados e guardiões de dados podem usar os recursos de governança no BigQuery para fazer o seguinte:

  • Descubra dados.
  • Selecionar dados.
  • Coletar e enriquecer metadados.
  • Gerenciar a qualidade dos dados.
  • Garanta que os dados sejam usados de forma consistente e em conformidade com as políticas organizacionais.
  • Compartilhe dados em grande escala e de forma segura.

Os recursos de governança do BigQuery são fornecidos pelo Dataplex Universal Catalog, um inventário centralizado de todos os ativos de dados da sua organização. O Dataplex Universal Catalog armazena metadados comerciais, técnicos e operacionais de todos os seus dados. Ele ajuda a descobrir relações e semânticas nos metadados aplicando inteligência artificial e aprendizado de máquina.

O BigLake Metastore permite usar vários mecanismos de processamento de dados para consultar uma única cópia de dados com um único esquema, sem duplicação de dados. Os mecanismos de processamento de dados que você pode usar incluem o BigQuery, o Apache Spark, o Apache Flink e o Apache Hive. Seus dados podem ser armazenados em locais como tabelas de armazenamento do BigQuery, tabelas do BigLake para Apache Iceberg no BigQuery ou tabelas externas do BigLake.

O BigQuery oferece suporte a um ciclo de vida completo dos dados, da descoberta ao uso. Os recursos de governança também estão disponíveis no Dataplex Universal Catalog.

Descoberta de dados

O BigQuery descobre dados em toda a organização no Google Cloud, seja no BigQuery, no Spanner, no Cloud SQL, no Pub/Sub ou no Cloud Storage. Os metadados são extraídos e armazenados automaticamente no Dataplex Universal Catalog. Por exemplo, é possível extrair metadados de dados estruturados e não estruturados do Cloud Storage e criar automaticamente tabelas do BigLake prontas para consulta em grande escala. Isso permite que você realize análises com um mecanismo de código aberto sem duplicação de dados.

Também é possível extrair e catalogar metadados de fontes de dados de terceiros usando conectores personalizados.

O BigQuery oferece os seguintes recursos de descoberta de dados:

  • Pesquisa. Pesquise recursos de dados e IA em projetos e na organização. No BigQuery, no console do Google Cloud , use a pesquisa semântica (Pré-visualização) para pesquisar recursos usando a linguagem cotidiana. Ou encontre recursos usando a pesquisa de palavras-chave no Dataplex Universal Catalog.
  • Descoberta automática de dados do Cloud Storage. Procure dados em buckets do Cloud Storage para extrair e catalogar metadados. A descoberta automática cria tabelas para dados estruturados e não estruturados.
  • Importação de metadados. Importe metadados em grande escala de sistemas de terceiros para o Dataplex Universal Catalog. Você pode criar conectores personalizados para extrair dados das suas fontes e executar pipelines de conectividade gerenciados que orquestram o fluxo de trabalho de importação de metadados.
  • Exportação de metadados. Exporte metadados em escalonar horizontalmente do Dataplex Universal Catalog. É possível analisar os metadados exportados com o BigQuery ou integrá-los a aplicativos personalizados ou fluxos de trabalho de processamento programático.

Curadoria e gestão de dados

Para melhorar a capacidade de descoberta e a usabilidade dos dados, os administradores e os administradores de dados podem usar o BigQuery para revisar, atualizar e analisar metadados. Os recursos de curadoria e gestão de dados do BigQuery ajudam a garantir que seus dados sejam precisos, consistentes e alinhados às políticas da sua organização.

O BigQuery oferece os seguintes recursos de curadoria e gestão de dados:

  • Glossário de negócios (Pré-lançamento). Melhore o contexto, a colaboração e a pesquisa definindo a terminologia da sua organização em um glossário. Identifique os administradores de dados para os termos e anexe os termos aos campos de recursos de dados.
  • Insights de dados. O Gemini usa metadados para gerar perguntas em linguagem natural sobre sua tabela e as consultas SQL para respondê-las. Esses insights ajudam a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características estatísticas comuns das colunas nas tabelas do BigQuery para entender e analisar seus dados de maneira mais eficaz.
  • Qualidade dos dados. Defina e execute verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage e aplique controles de dados regulares e contínuos em ambientes do BigQuery.
  • Linhagem de dados. Acompanhe como os dados se movem nos sistemas: de onde vêm, para onde são transmitidos e quais transformações são aplicadas a eles. O BigQuery oferece suporte à linhagem de dados nos níveis de tabela e coluna.

Próximas etapas para a curadoria e a gestão de dados

A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de curadoria e gerenciamento de dados:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Segurança e controle de acesso

O gerenciamento de acesso aos dados é o processo de definir, aplicar e monitorar as regras e políticas que regem quem tem acesso aos dados. Com o gerenciamento de acesso, os dados só podem ser acessados pelas pessoas autorizadas.

O BigQuery oferece os seguintes recursos de segurança e controle de acesso:

  • Identity and Access Management (IAM). Com o IAM, você controla quem tem acesso aos seus recursos do BigQuery, como projetos, conjuntos de dados, tabelas e visualizações. É possível conceder papéis do IAM a usuários, grupos e contas de serviço. Esses papéis definem o que eles podem fazer com seus recursos.
  • Controles de acesso no nível da coluna e controles de acesso no nível da linha. Os controles de acesso no nível da coluna e da linha permitem restringir o acesso a colunas e linhas específicas em uma tabela, com base em atributos do usuário ou valores de dados. Esse controle permite implementar acesso detalhado para ajudar a proteger dados sensíveis contra acesso não autorizado.
  • Gerenciamento da Transferência de dados. Com o VPC Service Controls, é possível criar perímetros em torno dos recursos Google Cloud e controlar o acesso a eles com base nas políticas da organização.
  • Registros de auditoria. Os registros de auditoria fornecem um registro detalhado da atividade do usuário e dos eventos do sistema na sua organização. Esses registros ajudam a aplicar políticas de governança de dados e identificar possíveis riscos de segurança.
  • Mascaramento de dados. Com o mascaramento de dados, é possível ocultar dados sensíveis em uma tabela e, ao mesmo tempo, permitir que usuários autorizados acessem os dados ao redor. O mascaramento de dados também pode ocultar dados que correspondem a padrões de dados sensíveis, protegendo contra a divulgação acidental de dados.
  • Criptografia. O BigQuery criptografa automaticamente todos os dados em repouso e em trânsito, além de permitir a personalização das configurações de criptografia para atender aos seus requisitos específicos.

Próximas etapas para segurança e controle de acesso

A tabela a seguir descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de controle de acesso:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Dados e insights compartilhados

Com o BigQuery, você pode compartilhar dados e insights em grande escala dentro e entre as fronteiras da organização. Ele tem um robusto framework de segurança e privacidade com uma plataforma de troca de dados integrada. Com o compartilhamento do BigQuery, é possível descobrir, acessar e consumir uma biblioteca de dados selecionada por uma ampla seleção de provedores de dados.

O BigQuery oferece os seguintes recursos de compartilhamento:

  • Compartilhar mais do que dados. É possível compartilhar uma ampla variedade de dados e recursos de IA, como conjuntos de dados, tabelas, visualizações, streams em tempo real do BigQuery com tópicos do Pub/Sub, procedimentos armazenados do SQL e modelos de ML do BigQuery.
  • Acessar conjuntos de dados do Google. Amplie suas iniciativas de análise e ML com conjuntos de dados do Google de Tendências de pesquisa, modelos DeepMind WeatherNext, Plataforma Google Maps, Google Earth Engine e muito mais.
  • Integrar com princípios de governança de dados. Os proprietários de dados mantêm o controle sobre os dados e podem definir e configurar regras ou políticas para restringir o acesso e o uso.
  • Compartilhamento de dados em tempo real sem cópia de dados. Os dados são compartilhados no local sem necessidade de integração, movimentação de dados ou replicação, garantindo que a análise seja baseada nas informações mais recentes. Os conjuntos de dados vinculados criados são um ponteiro ativo para o recurso compartilhado.
  • Melhorar a postura de segurança. É possível usar controles de acesso para reduzir o provisionamento excessivo, incluindo o suporte integrado do VPC Service Controls.
  • Aumente a visibilidade com as métricas de uso do provedor. Os editores de dados podem conferir e monitorar o uso de recursos compartilhados, como o número de jobs executados, o total de bytes verificados e os assinantes de cada organização.
  • Colaborar em dados sensíveis com data clean rooms. As data clean rooms oferecem um ambiente de segurança aprimorada em que várias partes podem compartilhar, mesclar e analisar os próprios recursos de dados sem mover ou revelar os dados subjacentes.
  • Desenvolvidos com o BigQuery. É possível criar com base na capacidade de escalonamento e processamento em BigQuery, permitindo colaborações em grande escala.

Próximas etapas para compartilhar

A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de compartilhamento:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
  • Saiba como criar e gerenciar trocas e listagens para começar a compartilhar dentro ou fora da sua organização.
Usuários experientes da nuvem

A seguir