Introdução à governança de dados no BigQuery

O BigQuery tem recursos de governança integrados que simplificam a forma como você descobre, gerencia, monitora, governa e usa seus dados e recursos de IA.

Administradores, administradores de dados, gerentes de governança de dados e guardiões de dados podem usar os recursos de governança no BigQuery para fazer o seguinte:

  • Descubra dados.
  • Selecionar dados.
  • Coletar e enriquecer metadados.
  • Gerenciar a qualidade dos dados.
  • Garanta que os dados sejam usados de forma consistente e em conformidade com as políticas organizacionais.
  • Compartilhe dados em grande escala e de forma segura.

O principal recurso de governança do BigQuery é o catálogo universal, um inventário centralizado de todos os recursos de dados da sua organização. O catálogo universal armazena metadados comerciais, técnicos e de execução para todos os seus dados. Ele ajuda a descobrir relações e semânticas nos metadados aplicando inteligência artificial e aprendizado de máquina.

O catálogo universal reúne um catálogo de dados e uma metastore de execução totalmente gerenciada. A metastore no BigQuery permite usar vários mecanismos de processamento de dados para consultar uma única cópia de dados com um único esquema, sem duplicação de dados. Os mecanismos de processamento de dados que você pode usar incluem o BigQuery, o Apache Spark, o Apache Flink e o Apache Hive. Seus dados podem ser armazenados em locais como tabelas de armazenamento do BigQuery, tabelas do BigQuery para Apache Iceberg ou tabelas externas do BigLake.

O BigQuery oferece suporte a um ciclo de vida completo dos dados, da descoberta ao uso. O catálogo universal oferece recursos e funcionalidades de governança do BigQuery. Os recursos de governança também estão disponíveis no Dataplex.

Descoberta de dados

O BigQuery descobre dados em toda a organização no Google Cloud, seja no BigQuery, no Spanner, no Cloud SQL, no Pub/Sub ou no Cloud Storage. O BigQuery extrai os metadados automaticamente e os armazena no catálogo universal. Por exemplo, é possível usar o BigQuery para extrair metadados de dados estruturados e não estruturados do Cloud Storage e criar automaticamente tabelas do BigLake prontas para consulta em grande escala. Isso permite que você realize análises com um mecanismo de código aberto sem duplicação de dados.

Também é possível extrair e catalogar metadados de fontes de dados de terceiros usando conectores personalizados.

O BigQuery oferece os seguintes recursos de descoberta de dados:

  • Pesquisa. Pesquise recursos de dados e IA em projetos usando o BigQuery no console do Google Cloud. O BigQuery oferece suporte à pesquisa semântica para descoberta de dados, permitindo pesquisar com consultas de linguagem natural.
  • Descoberta automática de dados do Cloud Storage. Procure dados em buckets do Cloud Storage para extrair e catalogar metadados. A descoberta automática cria tabelas para dados estruturados e não estruturados.
  • Importação de metadados. Importe metadados em grande escala de sistemas de terceiros para o catálogo universal. Você pode criar conectores personalizados para extrair dados das suas fontes e executar pipelines de conectividade gerenciados que orquestram o fluxo de trabalho de importação de metadados.

Curadoria e gestão de dados

Para melhorar a capacidade de descoberta e a usabilidade dos dados, os administradores e os administradores de dados podem usar o BigQuery para revisar, atualizar e analisar metadados. Os recursos de curadoria e gestão de dados do BigQuery ajudam a garantir que seus dados sejam precisos, consistentes e alinhados às políticas da sua organização.

O BigQuery oferece os seguintes recursos de curadoria e gestão de dados:

  • Glossário de negócios (pré-lançamento). Melhore o contexto, a colaboração e a pesquisa definindo a terminologia da organização em um glossário. Identifique os administradores de dados para os termos e anexe os termos aos campos de recursos de dados.
  • Insights de dados. O Gemini usa metadados para gerar perguntas em linguagem natural sobre sua tabela e as consultas SQL para respondê-las. Esses insights ajudam a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características estatísticas comuns das colunas nas tabelas do BigQuery para entender e analisar seus dados de maneira mais eficaz.
  • Qualidade dos dados. Defina e execute verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage e aplique controles de dados regulares e contínuos em ambientes do BigQuery.
  • Linhagem de dados. Acompanhe como os dados se movem pelos sistemas: de onde vêm, para onde são transmitidos e quais transformações são aplicadas a eles. O BigQuery oferece suporte à linhagem de dados nos níveis de tabela e coluna.

Próximas etapas para a curadoria e a gestão de dados

A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de curadoria e gerenciamento de dados:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Segurança e controle de acesso

O gerenciamento de acesso aos dados é o processo de definir, aplicar e monitorar as regras e políticas que regem quem tem acesso aos dados. Com o gerenciamento de acesso, os dados só podem ser acessados pelas pessoas autorizadas.

O BigQuery oferece os seguintes recursos de segurança e controle de acesso:

  • Identity and Access Management (IAM). Com o IAM, você controla quem tem acesso aos seus recursos do BigQuery, como projetos, conjuntos de dados, tabelas e visualizações. É possível conceder papéis do IAM a usuários, grupos e contas de serviço. Esses papéis definem o que eles podem fazer com seus recursos.
  • Controles de acesso no nível da coluna e controles de acesso no nível da linha. Os controles de acesso no nível da coluna e da linha permitem restringir o acesso a colunas e linhas específicas em uma tabela, com base em atributos do usuário ou valores de dados. Esse controle permite que você implemente acesso granular para ajudar a proteger dados sensíveis contra acesso não autorizado.
  • Gerenciamento da Transferência de dados. Com o VPC Service Controls, é possível criar perímetros em torno dos recursos Google Cloud e controlar o acesso a eles com base nas políticas da organização.
  • Registros de auditoria. Os registros de auditoria fornecem um registro detalhado da atividade do usuário e dos eventos do sistema na sua organização. Esses registros ajudam a aplicar políticas de governança de dados e identificar possíveis riscos de segurança.
  • Mascaramento de dados. Com o mascaramento de dados, é possível ocultar dados sensíveis em uma tabela e, ao mesmo tempo, permitir que usuários autorizados acessem os dados ao redor. O mascaramento de dados também pode ocultar dados que correspondem a padrões de dados sensíveis, protegendo contra a divulgação acidental de dados.
  • Criptografia. O BigQuery criptografa automaticamente todos os dados em repouso e em trânsito, além de permitir a personalização das configurações de criptografia para atender aos seus requisitos específicos.

Próximas etapas para segurança e controle de acesso

A tabela a seguir descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de controle de acesso:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Dados e insights compartilhados

Com o BigQuery, você pode compartilhar dados e insights em grande escala dentro e entre as fronteiras da organização. Ele tem uma estrutura robusta de segurança e privacidade com uma plataforma de troca de dados integrada. Com o compartilhamento do BigQuery, você pode descobrir, acessar e consumir uma biblioteca de dados selecionada por uma ampla seleção de provedores de dados.

O BigQuery oferece os seguintes recursos de compartilhamento:

  • Compartilhar mais do que dados. É possível compartilhar uma ampla variedade de dados e recursos de IA, como conjuntos de dados, tabelas, visualizações, streams em tempo real do BigQuery com tópicos do Pub/Sub, procedimentos armazenados do SQL e modelos de ML do BigQuery.
  • Acessar conjuntos de dados do Google. Amplie suas iniciativas de análise e ML com os conjuntos de dados do Google das tendências de pesquisa, modelos DeepMind WeatherNext, Google Maps Platform, Google Earth Engine e muito mais.
  • Integrar com princípios de governança de dados. Os proprietários de dados mantêm o controle sobre os dados e podem definir e configurar regras ou políticas para restringir o acesso e o uso.
  • Compartilhamento de dados em tempo real sem cópia de dados. Os dados são compartilhados no local sem necessidade de integração, movimentação de dados ou replicação, garantindo que a análise seja baseada nas informações mais recentes. Os conjuntos de dados vinculados criados são um ponteiro ativo para o recurso compartilhado.
  • Melhorar a postura de segurança. É possível usar controles de acesso para reduzir o provisionamento excessivo, incluindo o suporte integrado do VPC Service Controls.
  • Aumente a visibilidade com as métricas de uso do provedor. Os editores de dados podem conferir e monitorar o uso de recursos compartilhados, como o número de jobs executados, o total de bytes verificados e os assinantes de cada organização.
  • Colabore com dados sensíveis usando data clean rooms. As data clean rooms oferecem um ambiente de segurança aprimorada em que várias partes podem compartilhar, mesclar e analisar os próprios recursos de dados sem mover ou revelar os dados subjacentes.
  • Desenvolvido com o BigQuery. É possível criar com base na capacidade de escalonamento e processamento em BigQuery, permitindo colaborações em grande escala.

Próximas etapas para compartilhar

A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de compartilhamento:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
  • Saiba como criar e gerenciar trocas e listagens para começar a compartilhar dentro ou fora da sua organização.
Usuários experientes da nuvem

A seguir