Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Introdução ao framework de resolução de entidades do BigQuery
Neste documento, descrevemos a arquitetura do framework de resolução de entidades do BigQuery. A resolução de entidades é a capacidade de corresponder registros em
dados compartilhados sem um identificador comum ou de aumentar os dados compartilhados usando um
serviço de identidade de um parceiro do Google Cloud.
O público-alvo deste documento são os usuários finais da resolução de entidades (denominados
usuários finais daqui em diante) e provedores de identidade. Para conhecer detalhes de implementação, consulte
Configurar e usar a resolução de entidades no BigQuery.
É possível usar a resolução de entidade do BigQuery para todos os dados
preparados antes de contribuir para uma
sala limpa de dados.
A resolução de entidades está disponível nos modelos de preços sob demanda e por capacidade e em todas as edições do BigQuery.
Benefícios
Como usuário final, você pode se beneficiar da resolução de entidades das seguintes maneiras:
É possível resolver as entidades no local sem invocar taxas de transferência de dados, porque
um assinante ou parceiro do Google Cloud faz a correspondência dos seus dados com a tabela de identidade dele
e grava os resultados da correspondência em um conjunto de dados no projeto.
Você não precisa gerenciar jobs de extração, transformação e carregamento (ETL, na sigla em inglês).
Como provedor de identidade, você pode se beneficiar da resolução de entidades das seguintes maneiras:
É possível oferecer a resolução de entidades como um software como serviço (SaaS) gerenciado, no
Google Cloud Marketplace.
Você pode usar seus gráficos de identidade reservados e fazer a correspondência da lógica
sem revelá-los aos usuários.
Arquitetura
O BigQuery implementa a resolução de entidades usando chamadas de função remotas que ativam processos de resolução de entidades no ambiente de um provedor de identidade. Seus dados não precisam ser copiados ou movidos durante esse processo.
O diagrama e a explicação a seguir descrevem o fluxo de trabalho para a resolução
de entidades:
O usuário final concede à conta de serviço do provedor de identidade acesso de leitura
ao conjunto de dados de entrada e de gravação ao de saída.
O usuário chama a função remota que corresponde os seus dados de entrada aos dados do gráfico de identidade do provedor. Os parâmetros de correspondência são transmitidos ao provedor com a função remota.
A conta de serviço do provedor lê o conjunto de dados de entrada e o processa.
A conta de serviço do provedor grava os resultados da resolução de entidades no
conjunto de dados de saída do usuário.
As seções a seguir descrevem os componentes do usuário final e os projetos do provedor.
Componentes do usuário final
Os componentes do usuário final incluem o seguinte:
Chamada de função remota: uma chamada que executa um procedimento definido e
implementado pelo provedor de identidade. Essa chamada inicia o processo de resolução de
entidades.
Conjunto de dados de entrada: o conjunto de origem que contém os dados a serem correspondidos. Como opção, o conjunto de dados pode conter uma tabela de metadados com parâmetros adicionais. Os provedores especificam requisitos de esquema para conjuntos de dados de
entrada.
Conjunto de dados de saída: o conjunto de dados de destino em que o provedor armazena
os resultados correspondentes como uma tabela de saída. Opcionalmente, o provedor pode gravar uma tabela de status do job que contenha detalhes do job de resolução de entidades nesse conjunto de dados. O conjunto de dados de saída pode ser igual ao de entrada.
Componentes do provedor de identidade
Os componentes do provedor de identidade incluem o seguinte:
Plano de controle: contém uma função remota do BigQuery que orquestra o processo de correspondência. Essa função pode ser implementada como um job do Cloud Run ou uma Cloud Run functions. O
plano de controle também pode conter outros serviços, como a autenticação e
autorização.
Plano de dados: contém o conjunto de dados do gráfico de identidade e o procedimento
armazenado que implementa a lógica de correspondência do provedor. O procedimento armazenado
pode ser implementado como um
procedimento armazenado do SQL
ou um
procedimento armazenado do Apache Spark.
O conjunto de dados do gráfico de identidade contém as tabelas com que os dados do usuário final correspondem.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-12-22 UTC."],[[["\u003cp\u003eBigQuery entity resolution matches records across shared data without common identifiers or augments data using an identity service from a Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eEnd users benefit from in-place entity resolution without data transfer fees or the need to manage ETL jobs, as the matching is done by a subscriber or Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eIdentity providers can offer entity resolution as a managed SaaS product on Google Cloud Marketplace and use their proprietary identity graphs without revealing them.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery's entity resolution architecture uses remote function calls to activate processes in the identity provider's environment without moving the user's data.\u003c/p\u003e\n"],["\u003cp\u003eThe entity resolution process involves end users granting access to their datasets, calling a remote function, and the provider reading the input and writing the matched results to the user's output dataset.\u003c/p\u003e\n"]]],[],null,["# Introduction to the BigQuery entity resolution framework\n========================================================\n\nThis document describes the architecture of the BigQuery entity\nresolution framework. Entity resolution is the ability to match records across\nshared data where no common identifier exists or to augment shared data using an\nidentity service from a Google Cloud partner.\n\nThis document is intended for entity resolution end users (hereafter referred\nto as *end users* ) and identity providers. For implementation details, see\n[Configure and use entity resolution in\nBigQuery](/bigquery/docs/entity-resolution-setup).\n\nYou can use BigQuery entity resolution for any data that is\nprepared before contributing data into a\n[data clean room](/bigquery/docs/data-clean-rooms).\nEntity resolution is available in both the on-demand and capacity pricing\nmodels and in all BigQuery editions.\n\nBenefits\n========\n\nAs an end user, you can benefit from entity resolution in the following ways:\n\n- You can resolve entities in place without invoking data transfer fees because a subscriber or Google Cloud partner matches your data to their identity table and writes the match results to a dataset in your project.\n- You don't need to manage extract, transform, and load (ETL) jobs.\n\nAs an identity provider, you can benefit from entity resolution in the\nfollowing ways:\n\n- You can offer entity resolution as a managed software as a service (SaaS) offering on [Google Cloud Marketplace](/marketplace/docs/partners/integrated-saas).\n- You can use your proprietary identity graphs and match logic without revealing them to users.\n\nArchitecture\n------------\n\nBigQuery implements entity resolution by using remote function\ncalls that activate entity resolution processes in an identity provider's\nenvironment. Your data does not need to be copied or moved during this process.\nThe following diagram and explanation describe the workflow for entity\nresolution:\n\n1. The end user grants the identity provider's service account read access to their input dataset, and write access to their output dataset.\n2. The user calls the remote function that matches their input data with the provider's identity graph data. Matching parameters are passed to the provider with the remote function.\n3. The provider's service account reads the input dataset and processes it.\n4. The provider's service account writes the entity resolution results to the user's output dataset.\n\nThe following sections describe the end-user components and provider projects.\n\n### End-user components\n\nEnd-user components include the following:\n\n- **Remote function call**: a call that runs a procedure defined and implemented by the identity provider. This call starts the entity resolution process.\n- **Input dataset**: the source dataset that contains the data to be matched. Optionally, the dataset can contain a metadata table with additional parameters. Providers specify schema requirements for input datasets.\n- **Output dataset**: the destination dataset where the provider stores the matched results as an output table. Optionally, the provider can write a job status table that contains entity resolution job details to this dataset. The output dataset can be the same as the input dataset.\n\n### Identity provider components\n\nIdentity provider components include the following:\n\n- **Control plane** : contains a [BigQuery remote function](/bigquery/docs/remote-functions) that orchestrates the matching process. This function can be implemented as a [Cloud Run](/run/docs/overview/what-is-cloud-run) job, or a [Cloud Run function](/functions/docs/concepts/overview). The control plane can also contain other services, such as authentication and authorization.\n- **Data plane** : contains the identity graph dataset and the stored procedure that implements the provider matching logic. The stored procedure can be implemented as a [SQL stored procedure](/bigquery/docs/procedures) or an [Apache Spark stored procedure](/bigquery/docs/spark-procedures). The identity graph dataset contains the tables that the end-user data is matched against.\n\n| **Note:** Identity graphs can also be stored in some external databases.\n\nWhat's next\n-----------\n\n- To learn how to use entity resolution in your project, see [Configure and use entity resolution in BigQuery](/bigquery/docs/entity-resolution-setup)."]]