Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Einführung in das BigQuery-Framework zur Entitätsauflösung
In diesem Dokument wird die Architektur des BigQuery-Frameworks zur Entitätsauflösung beschrieben. Die Entitätsauflösung ist die Möglichkeit, Datensätze über freigegebene Daten hinweg abzugleichen, die keine gemeinsame Kennzeichnung haben, oder um freigegebene Daten mithilfe eines Identitätsdienstes eines Google Cloud-Partners zu ergänzen.
Dieses Dokument richtet sich an Endnutzer der Entitätsauflösung (im Folgenden als Endnutzer bezeichnet) und Identitätsanbieter. Weitere Informationen zur Implementierung finden Sie unter Entitätsauflösung in BigQuery konfigurieren und verwenden.
Sie können die BigQuery-Entitätsauflösung für alle Daten verwenden, die vorbereitet werden, bevor Daten für einen Data-Clean-Room beigetragen werden.
Die Entitätsauflösung ist sowohl in den On-Demand- als auch in den Kapazitätspreisen und in allen BigQuery-Versionen verfügbar.
Vorteile
Als Endnutzer können Sie von der Entitätsauflösung auf folgende Weise profitieren:
Sie können Entitäten direkt auflösen, ohne Datenübertragungsgebühren anzuhäufen, da ein Abonnent oder Google Cloud-Partner Ihre Daten mit seiner Identitätstabelle abgleicht und die Abgleichergebnisse in ein Dataset in Ihrem Projekt schreibt.
Sie müssen keine ETL-Jobs (Extraktion, Transformation, Laden) verwalten.
Als Identitätsanbieter können Sie auf folgende Weise von der Entitätsauflösung profitieren:
Sie können die Entitätsauflösung als verwalteten SaaS-Angebot (Software as a Service) im Google Cloud Marketplace anbieten.
Sie können Ihre proprietären Identitätsgrafiken und die Abgleichslogik verwenden, ohne sie Nutzern zugänglich zu machen.
Architektur
BigQuery implementiert die Entitätsauflösung mithilfe von Remote-Funktionsaufrufen, die Entitätsauflösungsprozesse in der Umgebung eines Identitätsanbieters aktivieren. Ihre Daten müssen während dieses Vorgangs weder kopiert noch verschoben werden.
Im folgenden Diagramm mit Erläuterung wird der Workflow für die Entitätsauflösung beschrieben:
Der Endnutzer gewährt dem Dienstkonto des Identitätsanbieters Lesezugriff auf sein Eingabe-Dataset und Schreibzugriff auf sein Ausgabe-Dataset.
Der Nutzer ruft die Remote-Funktion auf, die seine Eingabedaten mit den Identitätsgrafikdaten des Anbieters abgleicht. Übereinstimmende Parameter werden mit der Remote-Funktion an den Anbieter übergeben.
Das Dienstkonto des Anbieters liest das Eingabe-Dataset und verarbeitet es.
Das Dienstkonto des Anbieters schreibt die Ergebnisse der Entitätsauflösung in das Ausgabe-Dataset des Nutzers.
In den folgenden Abschnitten werden die Endnutzerkomponenten und Anbieterprojekte beschrieben.
Endnutzerkomponenten
Zu den Endnutzerkomponenten gehören:
Remote-Funktionsaufruf: Ein Aufruf, der ein vom Identitätsanbieter definiertes und implementiertes Verfahren ausführt. Dieser Aufruf startet den Entitätsauflösungsprozess.
Eingabe-Dataset: Das Quell-Dataset, das die Daten enthält, die abgeglichen werden sollen. Optional kann das Dataset eine Metadatentabelle mit zusätzlichen Parametern enthalten. Anbieter legen Schemaanforderungen für Eingabe-Datasets fest.
Ausgabe-Dataset: Das Ziel-Dataset, in dem der Anbieter die übereinstimmenden Ergebnisse als Ausgabetabelle speichert. Optional kann der Anbieter eine Jobstatustabelle mit Details zu Entitätsauflösungsjobs in dieses Dataset schreiben. Das Ausgabe-Dataset kann mit dem Eingabe-Dataset übereinstimmen.
Komponenten des Identitätsanbieters
Die Komponenten des Identitätsanbieters umfassen Folgendes:
Steuerungsebene: enthält eine BigQuery-Remote-Funktion, die den Abgleichsprozess orchestriert. Diese Funktion kann als Cloud Run-Job oder Cloud Functions-Funktion implementiert werden. Die Steuerungsebene kann auch andere Dienste enthalten, z. B. Authentifizierung und Autorisierung.
Datenebene: Enthält das Dataset des Identitätsdiagramms und die gespeicherte Prozedur, die die Logik für den Anbieterabgleich implementiert. Die gespeicherte Prozedur kann als gespeicherte SQL-Prozedur oder als gespeicherte Apache Spark-Prozedur implementiert werden.
Das Dataset der Identitätsgrafik enthält die Tabellen, mit denen die Endnutzerdaten abgeglichen werden.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2024-12-22 (UTC)."],[[["\u003cp\u003eBigQuery entity resolution matches records across shared data without common identifiers or augments data using an identity service from a Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eEnd users benefit from in-place entity resolution without data transfer fees or the need to manage ETL jobs, as the matching is done by a subscriber or Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eIdentity providers can offer entity resolution as a managed SaaS product on Google Cloud Marketplace and use their proprietary identity graphs without revealing them.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery's entity resolution architecture uses remote function calls to activate processes in the identity provider's environment without moving the user's data.\u003c/p\u003e\n"],["\u003cp\u003eThe entity resolution process involves end users granting access to their datasets, calling a remote function, and the provider reading the input and writing the matched results to the user's output dataset.\u003c/p\u003e\n"]]],[],null,["# Introduction to the BigQuery entity resolution framework\n========================================================\n\nThis document describes the architecture of the BigQuery entity\nresolution framework. Entity resolution is the ability to match records across\nshared data where no common identifier exists or to augment shared data using an\nidentity service from a Google Cloud partner.\n\nThis document is intended for entity resolution end users (hereafter referred\nto as *end users* ) and identity providers. For implementation details, see\n[Configure and use entity resolution in\nBigQuery](/bigquery/docs/entity-resolution-setup).\n\nYou can use BigQuery entity resolution for any data that is\nprepared before contributing data into a\n[data clean room](/bigquery/docs/data-clean-rooms).\nEntity resolution is available in both the on-demand and capacity pricing\nmodels and in all BigQuery editions.\n\nBenefits\n========\n\nAs an end user, you can benefit from entity resolution in the following ways:\n\n- You can resolve entities in place without invoking data transfer fees because a subscriber or Google Cloud partner matches your data to their identity table and writes the match results to a dataset in your project.\n- You don't need to manage extract, transform, and load (ETL) jobs.\n\nAs an identity provider, you can benefit from entity resolution in the\nfollowing ways:\n\n- You can offer entity resolution as a managed software as a service (SaaS) offering on [Google Cloud Marketplace](/marketplace/docs/partners/integrated-saas).\n- You can use your proprietary identity graphs and match logic without revealing them to users.\n\nArchitecture\n------------\n\nBigQuery implements entity resolution by using remote function\ncalls that activate entity resolution processes in an identity provider's\nenvironment. Your data does not need to be copied or moved during this process.\nThe following diagram and explanation describe the workflow for entity\nresolution:\n\n1. The end user grants the identity provider's service account read access to their input dataset, and write access to their output dataset.\n2. The user calls the remote function that matches their input data with the provider's identity graph data. Matching parameters are passed to the provider with the remote function.\n3. The provider's service account reads the input dataset and processes it.\n4. The provider's service account writes the entity resolution results to the user's output dataset.\n\nThe following sections describe the end-user components and provider projects.\n\n### End-user components\n\nEnd-user components include the following:\n\n- **Remote function call**: a call that runs a procedure defined and implemented by the identity provider. This call starts the entity resolution process.\n- **Input dataset**: the source dataset that contains the data to be matched. Optionally, the dataset can contain a metadata table with additional parameters. Providers specify schema requirements for input datasets.\n- **Output dataset**: the destination dataset where the provider stores the matched results as an output table. Optionally, the provider can write a job status table that contains entity resolution job details to this dataset. The output dataset can be the same as the input dataset.\n\n### Identity provider components\n\nIdentity provider components include the following:\n\n- **Control plane** : contains a [BigQuery remote function](/bigquery/docs/remote-functions) that orchestrates the matching process. This function can be implemented as a [Cloud Run](/run/docs/overview/what-is-cloud-run) job, or a [Cloud Run function](/functions/docs/concepts/overview). The control plane can also contain other services, such as authentication and authorization.\n- **Data plane** : contains the identity graph dataset and the stored procedure that implements the provider matching logic. The stored procedure can be implemented as a [SQL stored procedure](/bigquery/docs/procedures) or an [Apache Spark stored procedure](/bigquery/docs/spark-procedures). The identity graph dataset contains the tables that the end-user data is matched against.\n\n| **Note:** Identity graphs can also be stored in some external databases.\n\nWhat's next\n-----------\n\n- To learn how to use entity resolution in your project, see [Configure and use entity resolution in BigQuery](/bigquery/docs/entity-resolution-setup)."]]