Introdução ao compartilhamento do BigQuery

O compartilhamento do BigQuery (antigo Analytics Hub) é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o compartilhamento, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.

Por exemplo, é possível usar o compartilhamento para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.

Com os papéis do Identity and Access Management (IAM) do Analytics Hub, você pode realizar as seguintes tarefas de compartilhamento:

  • Como editor do Analytics Hub, você pode compartilhar dados com sua rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados, e podem ser monetizadas no Google Cloud Marketplace ou pelos seus próprios canais. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos. Você também pode gerenciar assinaturas e conferir as métricas de uso das suas listagens.

  • Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com os seus e usar os recursos integrados do BigQuery. Quando você se inscreve em uma listagem, um conjunto de dados vinculado ou uma assinatura do Pub/Sub vinculada é criada no seu projeto. É possível gerenciar suas assinaturas usando o recurso de assinatura, que armazena informações relevantes sobre o assinante e representa a conexão entre o editor e o assinante.

  • Como leitor do Analytics Hub, você pode navegar pelos recursos compartilhados a que tem acesso no compartilhamento e fazer uma solicitação ao editor para acessar os dados compartilhados. É possível descobrir listagens comerciais integradas ao Cloud Marketplace no Compartilhamento e no Cloud Marketplace.

  • Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.

Para mais informações, consulte Configurar papéis do Analytics Hub.

Arquitetura

O compartilhamento é criado com base em um modelo de publicação e assinatura de recursos de dados doGoogle Cloud , permitindo o compartilhamento sem cópia. O compartilhamento é compatível com os seguintes recursos do Google Cloud :

  • Conjuntos de dados do BigQuery
  • Tópicos do Pub/Sub

Fluxo de trabalho do editor

O diagrama a seguir descreve como um editor compartilha recursos:

O fluxo de trabalho do editor do Analytics Hub, que inclui recursos compartilhados, trocas de dados e listagens.

As seções a seguir descrevem os recursos desse fluxo de trabalho.

Recursos compartilhados

Os recursos compartilhados são a unidade de compartilhamento de um editor no BigQuery.

Conjuntos de dados compartilhados

Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no BigQuery. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem conjuntos de dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Como editor, você cria ou usa um conjunto de dados do BigQuery no seu projeto com os seguintes objetos compatíveis que você quer enviar aos assinantes:

Os conjuntos de dados compartilhados são compatíveis com a segurança no nível da coluna e a segurança no nível da linha.

Conheça as seguintes limitações relacionadas ao VPC Service Controls e ao compartilhamento:

  • Não é recomendável que os editores publiquem dados compartilhados em projetos dentro dos perímetros do VPC Service Controls. Se os conjuntos de dados compartilhados em um projeto estiverem dentro de um perímetro do VPC Service Controls, serão necessárias regras de entrada e saída adequadas para o projeto de troca (listagens hospedadas) e todos os projetos do assinante para que a assinatura das listagens do editor seja bem-sucedida.

  • Não é recomendável que os administradores de troca coloquem o projeto de troca em um perímetro do VPC Service Controls, já que isso pode interromper os fluxos de trabalho de publicação, exigindo regras de entrada e saída para o projeto do editor e todos os projetos dos assinantes para que eles se inscrevam nas listagens.

Tópicos compartilhados (prévia)

Um tópico compartilhado é um tópico do Pub/Sub que é a unidade de compartilhamento de dados de streaming no BigQuery. Como editor, você cria ou usa um tópico do Pub/Sub no seu projeto e o distribui para os assinantes.

Trocas de dados

Uma troca de dados é um contêiner que permite o compartilhamento de dados de autoatendimento. Ela contém listagens que referenciam conjuntos de dados compartilhados. Os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Esse método ajuda a evitar a concessão explícita de acesso aos recursos compartilhados. Um assinante pode navegar pelas trocas de dados, descobrir dados que podem acessar e se inscrever em recursos compartilhados. Ao criar uma troca de dados, você pode atribuir um e-mail de contato principal a ela. O e-mail de contato principal é uma forma de os usuários entrarem em contato com o proprietário de uma troca de dados para tirar dúvidas ou fazer comentários sobre ela. Uma troca de dados pode ser dos seguintes tipos:

  • Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens.
  • Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em trocas de dados públicos podem ser descobertas e assinadas por usuários doGoogle Cloud (allAuthenticatedUsers). Para mais informações sobre trocas de dados públicos, consulte Tornar uma troca de dados pública.

Com a função de administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários que realizam tarefas de compartilhamento.

Listagens

Uma listagem é uma referência a um recurso compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar a descrição do recurso, exemplos de consultas para executar ou exemplos de dados de mensagens, links para qualquer documentação relevante e informações adicionais que possam ajudar os assinantes a usar seu recurso compartilhado. Ao criar uma página de detalhes, você pode atribuir um e-mail de contato principal, um nome e contato do provedor e um nome e contato do editor. O e-mail do contato principal permite que os usuários entrem em contato com o proprietário de uma ficha com dúvidas ou preocupações sobre a troca de dados. O nome e o contato do provedor são as informações da agência que forneceu os dados para a ficha. Essa informação é opcional. O nome e o contato do editor são da agência que publicou os dados para uso no compartilhamento do BigQuery. Essa informação é opcional. Para mais informações, consulte Gerenciar listagens.

Uma listagem pode ser dos dois tipos a seguir com base na política do Identity and Access Management (IAM) definida para a listagem e no tipo de troca de dados que contém a listagem:

  • Listagem pública. Ela é compartilhada com todos os usuários doGoogle Cloud (allAuthenticatedUsers). As listagens em uma troca de dados pública são públicas. Essas listagens podem ser referências de um recurso público gratuito ou um recurso comercial. Se a listagem for de um recurso comercial, os assinantes poderão solicitar acesso diretamente ao provedor de dados ou navegar e comprar listagens comerciais integradas ao Google Cloud Marketplace.
  • Listagem particular. Ela é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência ao conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.

Fluxo de trabalho dos assinantes

O diagrama a seguir descreve como os assinantes interagem com recursos compartilhados:

O fluxo de trabalho de assinante de compartilhamento, que inclui recursos compartilhados, trocas de dados, listagens e recursos vinculados.

As seções a seguir descrevem os recursos no fluxo de trabalho do assinante.

Recursos vinculados

Os recursos vinculados são criados ao se inscrever em uma listagem de compartilhamento, conectando um assinante ao recurso compartilhado.

Conjuntos de dados vinculados

Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como ponteiro ou referência a um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados, para que os assinantes possam ler os dados, mas não possam adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e se inscrever em listagens.

Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso.

Os conjuntos de dados vinculados aceitam os seguintes objetos:

Assinaturas do Pub/Sub vinculadas (prévia)

Inscrever-se em uma listagem com um tópico compartilhado cria uma assinatura do Pub/Sub vinculada no projeto do assinante. Nenhuma cópia do tópico ou dos dados da mensagem compartilhados é criada. Os assinantes da assinatura do Pub/Sub vinculada podem acessar as mensagens publicadas no tópico compartilhado. Os assinantes acessam os dados das mensagens de um tópico compartilhado sem qualquer autorização adicional do Identity and Access Management. Os editores podem gerenciar assinaturas diretamente no Pub/Sub ou pelo gerenciamento de assinaturas do Compartilhamento. Para mais informações sobre assinaturas vinculadas do Pub/Sub, consulte Compartilhamento de stream com o Pub/Sub.

Opções de saída de dados (somente conjuntos de dados compartilhados do BigQuery)

As opções de saída de dados (prévia) permitem que os publishers restrinjam a exportação por assinantes de dados de conjuntos de dados vinculados do BigQuery.

Os editores podem ativar a restrição de saída de dados em uma lista, nos resultados de uma consulta ou em ambos. Quando a saída de dados é restrita, as seguintes restrições são aplicadas:

  • As APIs de cópia, clonagem, exportação e snapshot ficam desativadas.

  • As opções de copiar, clonar, exportar e de snapshot no console do Google Cloud ficam desativadas.

  • A conexão do conjunto de dados restrito ao explorador de tabelas fica desativada.

  • O serviço de transferência de dados do BigQuery fica desativado no conjunto de dados restrito.

  • As instruções CREATE TABLE AS SELECT e a gravação de uma tabela de destino ficam desativadas.

  • As instruções CREATE VIEW AS SELECT e a gravação em uma visualização de destino ficam desativadas.

Ao criar uma lista, é possível definir as opções de saída de dados adequadas.

Limitações

O compartilhamento tem as seguintes limitações:

  • Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados.

  • Um tópico compartilhado pode ter um máximo de 10 mil assinaturas do Pub/Sub. Esse limite inclui assinaturas vinculadas do Pub/Sub e assinaturas do Pub/Sub criadas fora do Compartilhamento (por exemplo, diretamente do Pub/Sub).

  • Um conjunto de dados com recursos não compatíveis não pode ser selecionado como um conjunto de dados compartilhado quando você cria uma listagem. Para mais informações sobre os objetos do BigQuery compatíveis com o compartilhamento, consulte Conjuntos de dados compartilhados neste documento.

  • Não é possível definir papéis do IAM ou políticas do IAM em tabelas individuais em um conjunto de dados vinculado. Em vez disso, aplique-as no nível do conjunto de dados vinculado.

  • Não é possível anexar tags do IAM em tabelas de um conjunto de dados vinculado. Em vez disso, aplique-as no nível do conjunto de dados vinculado.

  • Os conjuntos de dados vinculados criados antes de 25 de julho de 2023 não são preenchidos pelo recurso de assinatura. Apenas assinaturas criadas após 25 de julho de 2023 vão funcionar com os métodos da API.

  • Se você é publisher, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Os assinantes precisam receber permissões explícitas para ler o conjunto de dados de origem e poder consultar visualizações em conjuntos de dados vinculados. Para conceder acesso a visualizações, como prática recomendada, os editores precisam criar visualizações autorizadas. Com as visualizações autorizadas, os assinantes podem acessar os dados de visualização, mas não aos dados de origem.

    • O plano de consulta revela a consulta de visualização compartilhada e a consulta de rotina, incluindo IDs do projeto e outros conjuntos de dados envolvidos nas visualizações autorizadas. Nunca inclua nada, como chaves de criptografia que você considere confidencial, na visualização compartilhada ou na consulta de rotina.

    • Os conjuntos de dados compartilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações (por exemplo, quando há mais de cem assinantes ou tabelas em um conjunto de dados compartilhado), as atualizações podem levar até 18 horas para serem indexadas nesses serviços. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no console do Google Cloud .

    • Os tópicos compartilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog, mas não é possível filtrar especificamente pelo tipo de recurso.

    • Se você tiver configurado políticas de segurança na linha ou máscara de dados nas tabelas listadas, os assinantes precisarão ser clientes do Enterprise ou Enterprise Plus para executar o job de consulta no conjunto de dados vinculado. Para informações sobre edições, consulte Introdução às edições do BigQuery.

  • Se você é assinante, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Não há compatibilidade com visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.

    • Não é possível fazer captura de tela de tabelas de conjuntos de dados vinculados.

    • Consultas com conjuntos de dados vinculados e instruções JOIN maiores que 1 TB (armazenamento físico) podem falhar. Também é possível entrar em contato com o suporte para resolver o problema.

    • Não é possível usar qualificadores de região com visualizações INFORMATION_SCHEMA para conferir os metadados da tabela do conjunto de dados vinculado.

    • Ao consultar rotinas em um conjunto de dados vinculado, só é possível consultar funções definidas pelo usuário (UDFs SQL e JavaScript) e tipos de rotina de Funções de tabela. A consulta de um tipo de rotina incompatível resulta na mensagem de erro: Querying routine type type is not yet supported on linked dataset dataset.

  • As seguintes limitações se aplicam às métricas de uso:

    • Não é possível conferir as métricas de uso de listas enviadas antes de 20 de julho de 2023.

    • As métricas de uso da tabela externa para os campos num_rows_processed e total_bytes_processed podem conter dados imprecisos.

    • As métricas de uso para consumo são compatíveis somente com o uso de jobs do BigQuery. Não há suporte para o consumo usando os seguintes recursos:

    • As métricas de uso para visualizações só são preenchidas para consultas após 22 de abril de 2024.

    • As métricas de uso não são capturadas para assinaturas do Pub/Sub vinculadas no BigQuery. É possível continuar a ver o uso diretamente no Pub/Sub.

  • As seguintes limitações se aplicam ao assinar os dados do Salesforce Data Cloud:

    • Os dados da nuvem de dados são compartilhados como visualizações. Como assinante, não é possível acessar as tabelas subjacentes às quais as visualizações fazem referência.

Regiões compatíveis

O compartilhamento do BigQuery é compatível com as seguintes regiões e multirregiões.

Regiões

A tabela a seguir lista as regiões das Américas em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 Ícone de folha Baixo CO2
Iowa us-central1 Ícone de folha CO2 baixo
Las Vegas us-west4
Los Angeles us-west2
México northamerica-south1
Montreal northamerica-northeast1 Ícone de folha CO2 baixo
Norte da Virgínia us-east4
Oklahoma us-central2
Oregon us-west1 Ícone de folha CO2 baixo
Salt Lake City us-west3
São Paulo southamerica-east1 Ícone de folha Baixo CO2
Santiago southamerica-west1
Carolina do Sul us-east1
Toronto northamerica-northeast2
A tabela a seguir lista as regiões da Ásia-Pacífico em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Délhi asia-south2
Hong Kong asia-east2
Jacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seul asia-northeast3
Singapura asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tóquio asia-northeast1
A tabela a seguir lista as regiões da Europa em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 Ícone de folha Baixo CO2
Berlim europe-west10 Ícone de folha Baixo CO2
Finlândia europe-north1 Ícone de folha CO2 baixo
Frankfurt europe-west3
Londres europe-west2 ícone de folha Baixo CO2
Madri europe-southwest1 Ícone de folha Baixo CO2
Milão europe-west8
Países Baixos europe-west4 Ícone de folha Baixo CO2
Paris europe-west9 Ícone de folha Baixo CO2
Turim europe-west12
Varsóvia europe-central2
Zurique europe-west6 Ícone de folha Baixo CO2
A tabela a seguir lista as regiões do Oriente Médio em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Damã me-central2
Doha me-central1
Tel Aviv me-west1
A tabela a seguir lista as regiões da África em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Johannesburgo africa-south1

Locais multirregionais

A tabela a seguir lista as multirregiões em que o compartilhamento está disponível.
Descrição multirregional Nome multirregional
Data centers dentro de estados membro da União Europeia1 EU
Data centers nos Estados Unidos US

1 Os dados localizados na multirregião EU não são armazenados nos data centers europe-west2 (Londres) ou europe-west6 (Zurique).

Regiões Omni

A tabela a seguir lista o Omni em que o compartilhamento está disponível.
Descrição da região Omni Nome da região Omni
AWS
AWS - US East (N. Virginia) aws-us-east-1
AWS - Oeste dos EUA (Oregon) aws-us-west-2
AWS – Ásia-Pacífico (Seul) aws-ap-northeast-2
AWS: Ásia-Pacífico (Sydney) aws-ap-southeast-2
AWS - Europa (Irlanda) aws-eu-west-1
AWS: Europa (Frankfurt) aws-eu-central-1
Azure
Azure - East US 2 azure-eastus2

Exemplo de caso de uso:

Esta seção mostra um exemplo de como usar o compartilhamento no BigQuery.

Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto do Google Cloud chamado Previsão. Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. Veja como compartilhar seus dados com fornecedores pelo compartilhamento do BigQuery:

Administradores

Como proprietário do projeto Previsão, primeiro você precisa ativar a API e, em seguida, atribuir o papel de administrador do Analytics Hub a um usuário que administra a troca de dados no projeto. Os usuários com esse papel são chamados de administradores do Analytics Hub.

Esse administrador pode realizar as seguintes tarefas:

  • Crie, atualize, exclua e compartilhe a troca de dados no projeto de Previsão da sua organização.

  • Gerenciar outros administradores com o papel de administrador do Analytics Hub.

  • Gerencie os editores ao conceder a função "Editor" do Analytics Hub aos funcionários da sua organização. Se você quiser que alguns funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de administrador de listagens da empresa do Analytics Hub.

  • Gerencie assinantes concedendo o papel de assinante do Analytics Hub a um grupo do Google que consiste em todos os fornecedores. Se você quiser que alguns fornecedores tenham acesso somente de visualização às trocas e listagens disponíveis, conceda a eles o papel de Leitor do Analytics Hub. Esses fornecedores não podem se inscrever em listagens.

Para mais informações, consulte Gerenciar trocas de dados.

Editores

Os editores criam as seguintes listagens para os conjuntos de dados no projeto Previsão ou em um projeto diferente:

  • Listagem A: conjunto de dados 1 da previsão de demanda
  • Listagem B: conjunto de dados 2 da previsão de demanda
  • Listagem C: conjunto de dados 3 da previsão de demanda

Como provedor de dados, é possível rastrear as métricas de uso do seu conjunto de dados compartilhado. As métricas de uso incluem os seguintes detalhes:

  • Jobs que são executados no conjunto de dados compartilhado.
  • Os detalhes de consumo do seu conjunto de dados compartilhado por organização e projetos dos assinantes.
  • O número de linhas e bytes processados pelo job.

Para mais informações, consulte Gerenciar listagens.

Inscritos

Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.

Para mais informações, consulte Visualizar e assinar listagens.

Preços

Não há custo adicional para gerenciar trocas ou listagens de dados.

Para conjuntos de dados do BigQuery, os editores são cobrados pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em um modelo de preços sob demanda ou com base em capacidade. Para informações sobre preços, consulte Preços do BigQuery.

No Pub/Sub, os editores de tópicos são cobrados pelo número total de bytes gravados (capacidade de publicação) no tópico compartilhado e na saída da rede (se aplicável). Os assinantes são cobrados pelo número total de bytes lidos (capacidade de assinatura) da assinatura vinculada e da saída de rede (se aplicável). Consulte os preços do Pub/Sub para mais detalhes.

Cotas

Para informações sobre cotas de compartilhamento do BigQuery, consulte Cotas e limites.

Compliance

O compartilhamento, como parte do BigQuery, está em conformidade com os seguintes programas:

VPC Service Controls

É possível definir as regras de entrada e saída necessárias para permitir que editores e assinantes acessem dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte Compartilhar regras do VPC Service Controls.

A seguir