Configura y usa la resolución de entidades en BigQuery
En este documento, se muestra cómo implementar la resolución de entidades para los usuarios finales de la resolución de entidades (en adelante, usuarios finales) y los proveedores de identidad.
Los usuarios finales pueden usar este documento para conectarse con un proveedor de identidad y usar el servicio del proveedor para correlacionar registros. Los proveedores de identidad pueden usar este documento para configurar los servicios para compartirlos con los usuarios finales en Google Cloud Marketplace.
Flujo de trabajo para usuarios finales
En las siguientes secciones, se muestra a los usuarios finales cómo configurar la resolución de entidades en BigQuery. Para obtener una representación visual de la configuración completa, consulta la arquitectura para la resolución de entidades.
Antes de comenzar
- Comunícate con un proveedor de identidad y establece una relación con él. BigQuery admite la resolución de entidades con LiveRamp y TransUnion.
- Adquiere los siguientes elementos del proveedor de identidad:
- Credenciales de cuenta de servicio
- Firma de la función remota
- Crea dos conjuntos de datos en tu proyecto:
- Conjunto de datos de entrada
- Conjunto de datos de salida
Roles requeridos
Para obtener los permisos que necesitas para ejecutar trabajos de resolución de entidades, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Para que la cuenta de servicio del proveedor de identidad lea el conjunto de datos de entrada y escriba en el conjunto de datos de salida, sigue estos pasos:
-
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer) en el conjunto de datos de entrada -
Editor de datos de BigQuery (
roles/bigquery.dataEditor) en el conjunto de datos de salida
-
Visualizador de datos de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Traducir o resolver entidades
Para obtener instrucciones específicas del proveedor de identidad, consulta las siguientes secciones.
LiveRamp
Requisitos previos
- Configurar la identidad incorporada de LiveRamp en BigQuery. Para obtener más información, consulta Cómo habilitar la identidad incorporada de LiveRamp en BigQuery.
- Coordínate con LiveRamp para habilitar las credenciales de la API para usarlas con la identidad integrada. Para obtener más información, consulta Autenticación.
Configuración
Los siguientes pasos son obligatorios cuando usas la identidad incorporada de LiveRamp por primera vez. Una vez que se completa la configuración, solo se deben modificar la tabla de entrada y la tabla de metadatos entre ejecuciones.
Crea una tabla de entrada
Crea una tabla en el conjunto de datos de entrada. Propaga la tabla con RampIDs, dominios de destino y tipos de destino. Para obtener detalles y ejemplos, consulta Columnas y descripciones de la tabla de entrada.
Crea una tabla de metadatos
La tabla de metadatos se usa para controlar la ejecución de la identidad incorporada de LiveRamp en BigQuery. Crea una tabla de metadatos en el conjunto de datos de entrada. Propaga la tabla de metadatos con los IDs de cliente, los modos de ejecución, los dominios de destino y los tipos de destino. Para obtener detalles y ejemplos, consulta Columnas y descripciones de la tabla de metadatos.
Comparte tablas con LiveRamp
Otorga a la cuenta de servicio de LiveRamp Google Cloud acceso para ver y procesar datos en tu conjunto de datos de entrada. Para obtener más detalles y ejemplos, consulta Comparte tablas y conjuntos de datos con LiveRamp.
Ejecuta un trabajo de identidad integrada
Para ejecutar un trabajo de identidad incorporada con LiveRamp en BigQuery, haz lo siguiente:
- Confirma que todos los RampIDs codificados en tu dominio se encuentren en tu tabla de entrada.
- Antes de ejecutar el trabajo, confirma que la tabla de metadatos siga siendo precisa.
- Comunícate con LiveRampIdentitySupport@liveramp.com para solicitar un proceso de trabajo. Incluye el ID del proyecto, el ID del conjunto de datos y el ID de la tabla (si corresponde) para tu tabla de entrada, tabla de metadatos y conjunto de datos de salida. Para obtener más información, consulta Cómo notificar a LiveRamp para que inicie la transcodificación.
Por lo general, los resultados se entregan en tu conjunto de datos de salida en un plazo de tres días hábiles.
Asistencia de LiveRamp
Si tienes problemas con la asistencia, comunícate con el equipo de asistencia de LiveRamp Identity.
Facturación de LiveRamp
LiveRamp se encarga de la facturación de la resolución de entidades.
TransUnion
Requisitos previos
- Comunícate con el equipo de asistencia de TransUnion Cloud para celebrar un acuerdo que te permita acceder al servicio. Proporciona los detalles de tu ID del proyectoGoogle Cloud , los tipos de datos de entrada, el caso de uso y el volumen de datos.
- El equipo de asistencia de TransUnion Cloud habilita el servicio para tu proyecto Google Cloud y comparte una guía de implementación detallada que incluye los datos de salida disponibles.
Configuración
Cuando usas el servicio de resolución y enriquecimiento de identidades de TruAudience de TransUnion en tu entorno de BigQuery, debes seguir los pasos que se indican a continuación.
Crea una conexión externa
Crea una conexión a una fuente de datos externa del tipo Modelos remotos de Vertex AI, funciones remotas y BigLake (Cloud Resource). Usarás esta conexión para activar el servicio de resolución de identidades alojado en la cuenta de TransUnion Google Cloud desde tu cuenta deGoogle Cloud .
Copia el ID de conexión y el ID de la cuenta de servicio, y comparte estos identificadores con el equipo de entrega al cliente de TransUnion.
Crea una función remota
Crea una función remota que interactúe con el extremo del orquestador de servicios alojado en el proyecto Google Cloud de TransUnion para pasar los metadatos necesarios (incluidas las asignaciones de esquemas) al servicio de TransUnion. Usa el ID de conexión de la conexión externa que creaste y el extremo de la función de Cloud alojada en TransUnion que compartió el equipo de entrega al cliente de TransUnion.
Crea una tabla de entrada
Crea una tabla en el conjunto de datos de entrada. TransUnion admite como entradas el nombre, la dirección postal, el correo electrónico, el teléfono, la fecha de nacimiento, la dirección IPv4 y los IDs de dispositivos. Sigue los lineamientos de formato que se indican en la guía de implementación que TransUnion compartió contigo.
Crea una tabla de metadatos
Crea una tabla de metadatos que almacenará la configuración que requiere el servicio de resolución de identidades para procesar datos, incluidas las asignaciones de esquemas. Para obtener detalles y ejemplos, consulta la guía de implementación que TransUnion compartió contigo.
Crea una tabla de estado del trabajo
Crea una tabla que recibirá actualizaciones sobre el procesamiento de un lote de entrada. Puedes consultar esta tabla para activar otros procesos posteriores en tu canalización. Los estados posibles del trabajo son los siguientes: RUNNING, COMPLETED o ERROR.
Crea la invocación del servicio
Sigue el siguiente procedimiento para llamar al servicio de resolución de identidad de TransUnion después de recopilar todos los metadatos, empaquetarlos y pasarlos al extremo de la función de Cloud Functions de invocación alojada por TransUnion.
-- create service invocation procedure
CREATE OR REPLACE
PROCEDURE
`<project_id>.<dataset_id>.TransUnion_get_identities`(metadata_table STRING, config_id STRING)
begin
declare sql_query STRING;
declare json_result STRING;
declare base64_result STRING;
SET sql_query =
'''select to_json_string(array_agg(struct(config_id,key,value))) from `''' || metadata_table
|| '''` where config_id="''' || config_id || '''" ''';
EXECUTE immediate sql_query INTO json_result;
SET base64_result = (SELECT to_base64(CAST(json_result AS bytes)));
SELECT `<project_id>.<dataset_id>.remote_call_TransUnion_er`(base64_result);
END;
Crea la tabla de salida coincidente
Ejecuta la siguiente secuencia de comandos de SQL para crear la tabla de salida coincidente. Es el resultado estándar de la aplicación, que incluye marcas de coincidencias, puntuaciones, IDs individuales persistentes y IDs de grupo familiar.
-- create output table
CREATE TABLE `<project_id>.<dataset_id>.TransUnion_identity_output`(
batchid STRING,
uniqueid STRING,
ekey STRING,
hhid STRING,
collaborationid STRING,
firstnamematch STRING,
lastnamematch STRING,
addressmatches STRING,
addresslinkagescores STRING,
phonematches STRING,
phonelinkagescores STRING,
emailmatches STRING,
emaillinkagescores STRING,
dobmatches STRING,
doblinkagescore STRING,
ipmatches STRING,
iplinkagescore STRING,
devicematches STRING,
devicelinkagescore STRING,
lastprocessed STRING);
Configura los metadatos
Sigue la guía de implementación que TransUnion compartió contigo para asignar tu esquema de entrada al esquema de la aplicación. Estos metadatos también configuran la generación de IDs de colaboración, que son identificadores no persistentes que se pueden compartir y que se pueden usar en salas limpias de datos.
Otorga acceso de lectura y escritura
Obtén el ID de la cuenta de servicio de la conexión de Apache Spark del equipo de entrega al cliente de TransUnion y otórgale acceso de lectura y escritura al conjunto de datos que contiene las tablas de entrada y salida. Te recomendamos que proporciones el ID de la cuenta de servicio con un rol de editor de datos de BigQuery en el conjunto de datos.
Invoca la aplicación
Puedes invocar la aplicación desde tu entorno ejecutando la siguiente secuencia de comandos.
call `<project_id>.<dataset_id>.TransUnion_get_identities`("<project_id>.<dataset_id>.TransUnion_er_metadata","1");
-- using metadata table, and 1 = config_id for the batch run
Asistencia
Si tienes problemas técnicos, comunícate con la Asistencia al cliente de TransUnion Cloud.
Facturación y uso
TransUnion hace un seguimiento del uso de la aplicación y lo utiliza para fines de facturación. Los clientes activos pueden comunicarse con su representante de entrega de TransUnion para obtener más información.
Flujo de trabajo para proveedores de identidad
En las siguientes secciones, se muestra a los proveedores de identidad cómo configurar la resolución de entidades en BigQuery. Para obtener una representación visual de la configuración completa, consulta la arquitectura para la resolución de entidades.
Antes de comenzar
- Crea un trabajo de Cloud Run o una función de Cloud Run para integrarlo a la función remota. Ambas opciones son adecuadas para este propósito.
Toma nota del nombre de la cuenta de servicio asociada con la función de Cloud Run o con Cloud Run:
En la Google Cloud consola, ve a la página de Cloud Functions.
Haz clic en el nombre de la función y, luego, en la pestaña Detalles.
En el panel Información general, busca y anota el nombre de la cuenta de servicio de la función remota.
Crea una función remota
Recopila los principales del usuario final.
Roles requeridos
Para obtener los permisos que necesitas para ejecutar trabajos de resolución de entidades, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Para la cuenta de servicio asociada con tu función para leer y escribir en conjuntos de datos asociados y trabajos de inicio, sigue estos pasos:
-
Editor de datos de BigQuery (
roles/bigquery.dataEditor) en el proyecto -
Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) en el proyecto
-
Editor de datos de BigQuery (
-
Para que el principal del usuario final vea la función remota y se conecte a ella, haz lo siguiente:
-
Usuario de conexión de BigQuery (
roles/bigquery.connectionUser) en la conexión -
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer) en el conjunto de datos del plano de control con la función remota
-
Usuario de conexión de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Comparte la función remota de resolución de entidades
Modifica y comparte el siguiente código de interfaz remota con el usuario final. El usuario final necesita este código para iniciar el trabajo de resolución de entidades.
`PARTNER_PROJECT_ID.DATASET_ID`.match`(LIST_OF_PARAMETERS)
Reemplaza LIST_OF_PARAMETERS por la lista de parámetros que se pasan a la función remota.
Opcional: Proporciona metadatos del trabajo
De manera opcional, puedes proporcionar metadatos del trabajo con una función remota independiente o escribiendo una tabla de estado nueva en el conjunto de datos de salida del usuario. Entre los ejemplos de metadatos, se incluyen los estados y las métricas de los trabajos.
Facturación de proveedores de identidad
Para optimizar la facturación y la integración del cliente, te recomendamos que integres el servicio de resolución de entidades en Google Cloud Marketplace. Esto te permite configurar un modelo de precios basado en el uso del trabajo de resolución de entidades, y Google se encarga de la facturación. Para obtener más información, consulta Cómo ofrecer productos de software como servicio (SaaS).