Configurer et utiliser la résolution d'entités dans BigQuery
Ce document explique comment mettre en œuvre la résolution d'entités pour les utilisateurs finaux de cette dernière (nommés ci-après utilisateurs finaux) et les fournisseurs d'identité.
Les utilisateurs finaux peuvent utiliser ce document pour se connecter à un fournisseur d'identité et utiliser le service de ce fournisseur pour établir des correspondances entre enregistrements. Les fournisseurs d'identité peuvent utiliser ce document pour configurer des services à partager avec les utilisateurs finaux sur Google Cloud Marketplace.
Workflow pour les utilisateurs finaux
Les sections suivantes expliquent aux utilisateurs finaux comment configurer la résolution d'entités dans BigQuery. Pour obtenir une représentation visuelle de la configuration complète, consultez l'architecture de la résolution d'entités.
Avant de commencer
- Contactez un fournisseur d'identité et mettez-vous en relation avec celui-ci. BigQuery accepte la résolution d'entités avec les fournisseurs LiveRamp et TransUnion.
- Obtenez les éléments suivants auprès du fournisseur d'identité :
- Identifiants du compte de service
- Signature de fonction distante
- Créez deux ensembles de données dans votre projet :
- Ensemble de données d'entrée
- Ensemble de données de sortie
Rôles requis
Pour obtenir les autorisations nécessaires pour exécuter des jobs de résolution d'entités, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Pour que le compte de service du fournisseur d'identité puisse lire l'ensemble de données d'entrée et écrire dans l'ensemble de données de sortie :
-
Lecteur de données BigQuery (
roles/bigquery.dataViewer) sur l'ensemble de données d'entrée -
Éditeur de données BigQuery (
roles/bigquery.dataEditor) sur l'ensemble de données de sortie
-
Lecteur de données BigQuery (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Traduire ou résoudre des entités
Consultez les sections suivantes pour obtenir des instructions spécifiques à un fournisseur d'identité.
LiveRamp
Prérequis
- Configurez l'identité intégrée LiveRamp dans BigQuery. Pour en savoir plus, consultez la section Activer l'identité intégrée LiveRamp dans BigQuery.
- Coordonnez les identifiants d'API avec LiveRamp pour les utiliser avec l'identité intégrée. Pour en savoir plus, consultez la section Authentification.
Configuration
Suivez la procédure ci-dessous lorsque vous utilisez l'identité intégrée LiveRamp pour la première fois. Une fois la configuration terminée, seules la table d'entrée et la table de métadonnées doivent être modifiées entre les exécutions.
Créer une table d'entrée
Créez une table dans l'ensemble de données d'entrée. Renseignez la table avec les RampID, les domaines cibles et les types cibles. Pour obtenir plus d'informations et des exemples, consultez la page Colonnes et descriptions des tables d'entrée.
Créer une table de métadonnées
La table de métadonnées permet de contrôler l'exécution de l'identité intégrée LiveRamp sur BigQuery. Créez une table de métadonnées dans l'ensemble de données d'entrée. Renseignez la table de métadonnées avec les ID client, les modes d'exécution, les domaines cibles et les types cibles. Pour obtenir plus d'informations et des exemples, consultez la page Colonnes et descriptions des tables de métadonnées.
Partager des tables avec LiveRamp
Accordez au compte de service LiveRamp Google Cloud un accès permettant d'afficher et de traiter les données de votre ensemble de données d'entrée. Pour obtenir plus d'informations et des exemples, consultez Partager des tables et des ensembles de données avec LiveRamp.
Exécuter un job d'identité intégré
Pour exécuter un job d'identité intégré avec LiveRamp dans BigQuery, procédez comme suit :
- Vérifiez que tous les RampID encodés dans votre domaine se trouvent dans la table d'entrée.
- Vérifiez que votre table de métadonnées est toujours exacte avant d'exécuter le job.
- Contactez LiveRampIdentitySupport@liveramp.com pour demander un processus de job. Incluez l'ID du projet, l'ID de l'ensemble de données et l'ID de la table (le cas échéant) pour votre table d'entrée, votre table de métadonnées et votre ensemble de données de sortie. Pour en savoir plus, consultez la page Notifier LiveRamp pour lancer le transcodage.
Les résultats sont généralement envoyés à votre ensemble de données de sortie dans un délai de trois jours ouvrés.
Compatibilité avec LiveRamp
En cas de problèmes de compatibilité, contactez l'assistance LiveRamp Identity.
Facturation LiveRamp
LiveRamp se charge de gérer la facturation pour ce qui concerne la résolution d'entités.
TransUnion
Prérequis
- Contactez l'assistance TransUnion Cloud pour conclure un accord et accéder au service. Indiquez les détails de votre ID de projetGoogle Cloud , des types de données d'entrée, du cas d'utilisation et du volume de données.
- L'assistance TransUnion Cloud active le service pour votre projet Google Cloud et partage un guide d'implémentation détaillé qui inclut les données de sortie disponibles.
Configuration
Les étapes suivantes sont requises lorsque vous utilisez le service TruAudience Identity Resolution and Enrichment de TransUnion dans votre environnement BigQuery.
Créer une connexion externe
Créez une connexion à une source de données externe de type Modèles distants Vertex AI, fonctions à distance et BigLake (ressource Cloud). Vous utiliserez cette connexion pour déclencher le service de résolution des identités hébergé dans le compte TransUnion Google Cloud depuis votre compteGoogle Cloud .
Copiez l'ID de connexion et l'ID du compte de service, puis partagez-les avec l'équipe de livraison client de TransUnion.
Créer une fonction distante
Créez une fonction distante qui interagit avec le point de terminaison de l'orchestrateur de services hébergé sur le projet Google Cloud TransUnion pour transmettre les métadonnées nécessaires (y compris les mappages de schéma) au service TransUnion. Utilisez l'ID de connexion de la connexion externe que vous avez créée et le point de terminaison de la fonction Cloud hébergée par TransUnion, partagé par l'équipe de livraison client de TransUnion.
Créer une table d'entrée
Créez une table dans l'ensemble de données d'entrée. TransUnion accepte les noms, les adresses postales, les adresses e-mail, les numéros de téléphone, les dates de naissance, les adresses IPv4 et les ID d'appareil comme entrées. Suivez les consignes de mise en forme du guide d'implémentation que TransUnion vous a envoyé.
Créer une table de métadonnées
Créez une table de métadonnées qui stockera la configuration requise par le service de résolution des identités pour traiter les données, y compris les mappages de schéma. Pour obtenir des détails et des exemples, consultez le guide d'implémentation que TransUnion vous a envoyé.
Créer un tableau d'état des tâches
Créez une table qui recevra des informations sur le traitement d'un lot d'entrée. Vous pouvez interroger cette table pour déclencher d'autres processus en aval dans votre pipeline. Les états de job possibles sont les suivants : RUNNING, COMPLETED ou ERROR.
Créer l'appel de service
Procédez comme suit pour appeler le service de résolution d'identité TransUnion après avoir collecté toutes les métadonnées, les avoir empaquetées et les avoir transmises au point de terminaison de la fonction Cloud d'invocation hébergé par TransUnion.
-- create service invocation procedure
CREATE OR REPLACE
PROCEDURE
`<project_id>.<dataset_id>.TransUnion_get_identities`(metadata_table STRING, config_id STRING)
begin
declare sql_query STRING;
declare json_result STRING;
declare base64_result STRING;
SET sql_query =
'''select to_json_string(array_agg(struct(config_id,key,value))) from `''' || metadata_table
|| '''` where config_id="''' || config_id || '''" ''';
EXECUTE immediate sql_query INTO json_result;
SET base64_result = (SELECT to_base64(CAST(json_result AS bytes)));
SELECT `<project_id>.<dataset_id>.remote_call_TransUnion_er`(base64_result);
END;
Créer la table de sortie correspondante
Exécutez le script SQL suivant pour créer la table de sortie correspondante. Il s'agit de la sortie standard de l'application, qui inclut les indicateurs de correspondance, les scores, les ID individuels persistants et les ID de foyer.
-- create output table
CREATE TABLE `<project_id>.<dataset_id>.TransUnion_identity_output`(
batchid STRING,
uniqueid STRING,
ekey STRING,
hhid STRING,
collaborationid STRING,
firstnamematch STRING,
lastnamematch STRING,
addressmatches STRING,
addresslinkagescores STRING,
phonematches STRING,
phonelinkagescores STRING,
emailmatches STRING,
emaillinkagescores STRING,
dobmatches STRING,
doblinkagescore STRING,
ipmatches STRING,
iplinkagescore STRING,
devicematches STRING,
devicelinkagescore STRING,
lastprocessed STRING);
Configurer les métadonnées
Suivez le guide d'implémentation que TransUnion vous a fourni pour mapper votre schéma d'entrée au schéma d'application. Ces métadonnées configurent également la génération d'ID de collaboration, qui sont des identifiants non persistants partageables pouvant être utilisés dans les data clean rooms.
Accorder un accès en lecture et en écriture
Obtenez l'ID du compte de service de la connexion Apache Spark auprès de l'équipe TransUnion chargée de la livraison aux clients, puis accordez-lui un accès en lecture et en écriture à l'ensemble de données contenant les tables d'entrée et de sortie. Nous vous recommandons de fournir l'ID du compte de service avec un rôle Éditeur de données BigQuery sur l'ensemble de données.
Appeler l'application
Vous pouvez appeler l'application depuis votre environnement en exécutant le script suivant.
call `<project_id>.<dataset_id>.TransUnion_get_identities`("<project_id>.<dataset_id>.TransUnion_er_metadata","1");
-- using metadata table, and 1 = config_id for the batch run
Assistance
Pour les problèmes techniques, contactez l'assistance TransUnion Cloud.
Facturation et utilisation
TransUnion suit l'utilisation de l'application et l'utilise à des fins de facturation. Les clients actifs peuvent contacter leur représentant TransUnion pour en savoir plus.
Workflow pour les fournisseurs d'identité
Les sections suivantes expliquent aux fournisseurs d'identité comment configurer la résolution d'entités dans BigQuery. Pour obtenir une représentation visuelle de la configuration complète, consultez l'architecture de la résolution d'entités.
Avant de commencer
- Créez un job Cloud Run ou une fonction Cloud Run Functions à intégrer à la fonction distante. L'une ou l'autre de ces options peut être utilisée indifféremment à cet effet.
Notez le nom du compte de service associé à Cloud Run ou Cloud Run Functions :
Dans la console Google Cloud , accédez à la page Cloud Functions.
Cliquez sur le nom de la fonction, puis sur l'onglet Détails.
Dans le volet Informations générales, recherchez et notez le nom du compte de service pour la fonction distante.
Créez une fonction distante.
Collectez les comptes principaux des utilisateurs finaux auprès de l'utilisateur final.
Rôles requis
Pour obtenir les autorisations nécessaires pour exécuter des jobs de résolution d'entités, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Pour le compte de service associé à votre fonction pour lire et écrire sur les ensembles de données associés, et lancer des tâches :
-
Éditeur de données BigQuery (
roles/bigquery.dataEditor) sur le projet -
Utilisateur de job BigQuery (
roles/bigquery.jobUser) sur le projet
-
Éditeur de données BigQuery (
-
Pour que le compte principal de l'utilisateur final puisse voir la fonction distante et s'y connecter :
-
Utilisateur de connexion BigQuery (
roles/bigquery.connectionUser) sur la connexion -
Lecteur de données BigQuery (
roles/bigquery.dataViewer) sur l'ensemble de données du plan de contrôle avec la fonction distante
-
Utilisateur de connexion BigQuery (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Partager la fonction distante de résolution d'entités
Modifiez le code d'interface distante suivant et partagez-le avec l'utilisateur final. L'utilisateur final doit disposer de ce code pour lancer le job de résolution d'entités.
`PARTNER_PROJECT_ID.DATASET_ID`.match`(LIST_OF_PARAMETERS)
Remplacez LIST_OF_PARAMETERS par la liste des paramètres transmis à la fonction distante.
Facultatif : Fournir les métadonnées de la tâche
Vous pouvez éventuellement fournir des métadonnées de job à l'aide d'une fonction distante indépendante, ou en écrivant une nouvelle table d'état dans l'ensemble de données de sortie de l'utilisateur. Les métriques et les états des jobs constituent des exemples de métadonnées.
Gestion de la facturation par les fournisseurs d'identité
Pour simplifier la facturation et l'intégration des clients, nous vous recommandons d'intégrer votre service de résolution d'entités à Google Cloud Marketplace. Vous pouvez ainsi configurer un modèle de tarification en fonction de l'utilisation du job de résolution d'entités, et Google va alors s'occuper de la facturation. Pour en savoir plus, consultez la section Proposer des produits SaaS (Software as a Service).