Introducción al uso compartido de BigQuery
La función de compartir de BigQuery (antes Analytics Hub) es una plataforma de intercambio de datos que te permite compartir datos y estadísticas a gran escala entre organizaciones con un sólido marco de seguridad y privacidad. La función de compartir te permite descubrir y acceder a una biblioteca de datos elaborada por distintos proveedores de datos. Esta biblioteca de datos también incluye conjuntos de datos proporcionados por Google.
Por ejemplo, puedes usar la función de compartir para complementar tus iniciativas de analíticas y aprendizaje automático con conjuntos de datos de terceros y de Google.
Los roles de Gestión de Identidades y Accesos (IAM) de Analytics Hub te permiten realizar las siguientes tareas de uso compartido:
Como editor de Analytics Hub, puede compartir datos con su red de partners o con su propia organización en tiempo real. Las fichas te permiten compartir datos sin replicarlos y se pueden monetizar en Google Cloud Marketplace o a través de tus propios canales. Puedes crear un catálogo de fuentes de datos listos para analíticas con permisos granulares que te permitan enviar datos a las audiencias adecuadas. También puede gestionar las suscripciones y ver las métricas de uso de sus fichas.
Como suscriptor de Analytics Hub, puedes descubrir los datos que buscas, combinar los datos compartidos con los que ya tienes y usar las funciones integradas de BigQuery. Cuando te suscribes a una ficha, se crea un conjunto de datos vinculado o una suscripción de Pub/Sub vinculada en tu proyecto. Puedes gestionar tus suscripciones mediante el recurso Subscription, que almacena información relevante sobre el suscriptor y representa la conexión entre el editor y el suscriptor.
Como lector de Analytics Hub, puedes consultar los recursos compartidos a los que tienes acceso en el uso compartido de BigQuery y enviar una solicitud al editor para acceder a los datos compartidos. Puede descubrir fichas comerciales integradas en Cloud Marketplace tanto en el uso compartido de BigQuery como en Cloud Marketplace.
Como administrador de Analytics Hub, puede crear intercambios de datos que permitan compartir datos y, a continuación, conceder permisos a los editores y suscriptores de datos para acceder a estos intercambios.
Para obtener más información, consulta Configurar roles de Analytics Hub.
Arquitectura
El uso compartido se basa en un modelo de publicación y suscripción de Google Cloud recursos de datos, lo que permite compartir y acceder sin copiar. La función de compartir admite los siguientes recursos: Google Cloud
- Conjuntos de datos de BigQuery
- Temas Pub/Sub
Flujo de trabajo del editor
En el siguiente diagrama se describe cómo comparte recursos un editor:
En las siguientes secciones se describen las funciones de este flujo de trabajo.
Recursos compartidos
Los recursos compartidos son la unidad de uso compartido de un editor en el uso compartido de BigQuery.
Conjuntos de datos compartidos
Un conjunto de datos compartido es un conjunto de datos de BigQuery que es la unidad de uso compartido de datos en BigQuery. La separación de la computación y el almacenamiento en la arquitectura de BigQuery permite a los editores de datos compartir conjuntos de datos con tantos suscriptores como quieran sin tener que hacer varias copias de los datos. Como editor, puede crear o usar un conjunto de datos de BigQuery en su proyecto con los siguientes objetos admitidos que quiera proporcionar a sus suscriptores:
- Vistas autorizadas
- Conjuntos de datos autorizados
- Modelos de BigQuery ML
- Tablas externas
- Vistas materializadas
-
No se admiten todas las rutinas en los conjuntos de datos compartidos. Para obtener más información, consulta Limitaciones.
Los conjuntos de datos compartidos admiten la seguridad a nivel de columna y la seguridad a nivel de fila.
Ten en cuenta las siguientes limitaciones relativas a los Controles de Servicio de VPC y al uso compartido:
No se recomienda que los editores publiquen datos compartidos en proyectos dentro de los perímetros de Controles de Servicio de VPC. Si los conjuntos de datos compartidos de un proyecto están dentro de los perímetros de Controles de Servicio de VPC, se necesitan reglas de entrada y salida adecuadas tanto para el proyecto de intercambio (anuncios alojados) como para todos los proyectos del suscriptor para que se pueda suscribir correctamente a los anuncios del editor.
No se recomienda que los administradores de Exchange incluyan su proyecto de Exchange en un perímetro de Controles de Servicio de VPC, ya que podría interrumpir los flujos de trabajo de publicación. Para que el proyecto del editor y todos los proyectos de los suscriptores puedan suscribirse correctamente a sus fichas, se necesitan reglas de entrada y salida.
Temas compartidos
Un tema compartido es un tema de Pub/Sub que es la unidad de uso compartido de datos en streaming en BigQuery. Como editor, puedes crear o usar un tema de Pub/Sub en tu proyecto y distribuirlo entre tus suscriptores.
Intercambios de datos
Un intercambio de datos es un contenedor que permite compartir datos de autoservicio. Contiene listados que hacen referencia a recursos compartidos. Los editores y los administradores pueden conceder acceso a los suscriptores a nivel de exchange y de ficha. Este método ayuda a evitar que se conceda acceso explícitamente a los recursos compartidos subyacentes. Un suscriptor puede consultar los intercambios de datos, descubrir los datos a los que puede acceder y suscribirse a los recursos compartidos. Cuando crea un intercambio de datos, puede asignarle un correo de contacto principal. El correo de contacto principal permite a los usuarios ponerse en contacto con el propietario de un intercambio de datos si tienen alguna pregunta o duda sobre él. Un intercambio de datos puede ser de los siguientes tipos:
- Intercambio de datos privados. De forma predeterminada, un intercambio de datos es privado y solo los usuarios o grupos que tengan acceso a él pueden ver o suscribirse a sus fichas.
- Intercambio de datos públicos. De forma predeterminada, un intercambio de datos es privado y solo los usuarios o grupos que tengan acceso a él pueden ver o suscribirse a sus fichas. Sin embargo, puedes hacer público un intercambio de datos. Los usuarios de Google Cloud (
allAuthenticatedUsers
) pueden descubrir y suscribirse a las fichas de los intercambios de datos públicos. Para obtener más información sobre los intercambios de datos públicos, consulte Hacer público un intercambio de datos.
El rol de administrador de Analytics Hub le permite crear varios intercambios de datos y gestionar a otros usuarios que realicen tareas de uso compartido.
Fichas
Una ficha es una referencia a un recurso compartido que un editor recoge en un intercambio de datos. Como editor, puede crear una ficha y especificar la descripción del recurso, consultas de ejemplo para ejecutar o datos de mensajes de ejemplo, enlaces a cualquier documentación pertinente e información adicional que pueda ayudar a los suscriptores a usar el recurso compartido. Cuando creas una ficha, puedes asignar un correo de contacto principal, un nombre y un contacto del proveedor, así como un nombre y un contacto del editor. El correo de contacto principal permite a los usuarios ponerse en contacto con el propietario de una ficha si tienen alguna pregunta o duda sobre el intercambio de datos. El nombre y el contacto del proveedor son la información de la agencia que proporcionó originalmente los datos del anuncio. Esta información es opcional. El nombre y el contacto del editor son los de la agencia que ha publicado los datos para que se usen en el uso compartido de BigQuery. Esta información es opcional. Para obtener más información, consulta Gestionar fichas.
Una ficha puede ser de uno de los dos tipos siguientes en función de la política de gestión de identidades y accesos (IAM) que se haya definido para la ficha y del tipo de intercambio de datos que contenga la ficha:
- Anuncio público. Se comparte con todos los Google Cloud usuarios (
allAuthenticatedUsers
). Las fichas de un intercambio de datos públicos son fichas públicas. Estas fichas pueden ser referencias de un recurso público gratuito o de un recurso comercial. Si la ficha es de un recurso comercial, los suscriptores pueden solicitar acceso a la ficha directamente al proveedor de datos o pueden buscar y comprar fichas comerciales integradas en Google Cloud Marketplace. - Ficha privada Se comparte directamente con personas o grupos. Por ejemplo, una ficha privada puede hacer referencia a un conjunto de datos de métricas de marketing que compartes con otros equipos internos de tu organización.
Flujo de trabajo de suscriptor
En el siguiente diagrama se describe cómo interactúan los suscriptores de Analytics Hub con los recursos compartidos:
En las siguientes secciones se describen las funciones del flujo de trabajo de los suscriptores.
Recursos vinculados
Los recursos vinculados se crean al suscribirse a un anuncio de intercambio de BigQuery, lo que conecta a un suscriptor con el recurso compartido subyacente.
Conjuntos de datos vinculados
Un conjunto de datos vinculado es un conjunto de datos de BigQuery de solo lectura que sirve como puntero o referencia a un conjunto de datos compartido. Al suscribirte a una ficha, se crea un conjunto de datos vinculado en tu proyecto, no una copia del conjunto de datos, por lo que los suscriptores pueden leer los datos, pero no pueden añadir ni actualizar objetos en él. Cuando consultas objetos, como tablas y vistas, a través de un conjunto de datos vinculado, se devuelven los datos del conjunto de datos compartido. Para obtener más información sobre los conjuntos de datos vinculados, consulta Ver y suscribirse a fichas.
Los conjuntos de datos vinculados tienen autorización para acceder a las tablas y vistas de un conjunto de datos compartido. Los suscriptores con conjuntos de datos vinculados acceden a las tablas y vistas de un conjunto de datos compartido sin ninguna autorización adicional de gestión de identidades y accesos.
Los conjuntos de datos vinculados admiten los siguientes objetos:
Suscripciones de Pub/Sub vinculadas
Si te suscribes a una ficha con un tema compartido, se crea una suscripción de Pub/Sub vinculada en el proyecto del suscriptor. No se crean copias del tema ni de los datos del mensaje compartido. Los suscriptores de la suscripción de Pub/Sub vinculada pueden acceder a los mensajes publicados en el tema compartido. Los suscriptores acceden a los datos de los mensajes de un tema compartido sin necesidad de ninguna autorización adicional de gestión de identidades y accesos. Los editores pueden gestionar las suscripciones directamente en Pub/Sub o a través de la gestión de suscripciones compartidas de BigQuery. Para obtener más información sobre las suscripciones a Pub/Sub vinculadas, consulta Compartir emisiones con Pub/Sub.
Opciones de salida de datos (solo conjuntos de datos compartidos de BigQuery)
Las opciones de salida de datos permiten a los editores restringir la exportación de datos de conjuntos de datos vinculados de BigQuery por parte de los suscriptores.
Los editores pueden habilitar la restricción de salida de datos en una ficha, en los resultados de una consulta o en ambas. Cuando se restringe la salida de datos, se aplican las siguientes restricciones:
Las APIs de copia, clonación, exportación y creación de snapshots están inhabilitadas.
Las opciones de copia, clonación, exportación y creación de instantáneas de la Google Cloud consola están inhabilitadas.
No se puede conectar el conjunto de datos restringido al explorador de tablas.
BigQuery Data Transfer Service está inhabilitado en el conjunto de datos restringido.
Las instrucciones
CREATE TABLE AS SELECT
y la escritura en una tabla de destino están inhabilitadas.Las instrucciones
CREATE VIEW AS SELECT
y la escritura en una vista de destino están inhabilitadas.
Cuando cree una ficha, podrá configurar las opciones de salida de datos adecuadas.
Limitaciones
El uso compartido tiene las siguientes limitaciones:
Un conjunto de datos compartido puede tener un máximo de 1000 conjuntos de datos vinculados.
Un tema compartido puede tener un máximo de 10.000 suscripciones de Pub/Sub. Este límite incluye las suscripciones de Pub/Sub vinculadas y las suscripciones de Pub/Sub creadas fuera del uso compartido de BigQuery (por ejemplo, directamente desde Pub/Sub).
No se puede seleccionar un conjunto de datos con recursos no admitidos como conjunto de datos compartido al crear una ficha. Para obtener más información sobre los objetos de BigQuery que admite el uso compartido de BigQuery, consulta Conjuntos de datos compartidos en este documento.
No puedes definir roles de gestión de identidades y accesos ni políticas de gestión de identidades y accesos en tablas concretas de un conjunto de datos vinculado. Aplícalos en el nivel del conjunto de datos vinculado.
No puedes adjuntar etiquetas de gestión de identidades y accesos a tablas de un conjunto de datos vinculado. Aplícalos a nivel del conjunto de datos vinculado.
Los conjuntos de datos vinculados creados antes del 25 de julio del 2023 no se rellenan con datos anteriores mediante el recurso de suscripción. Solo las suscripciones creadas después del 25 de julio del 2023 funcionan con los métodos de la API.
Si eres editor, se aplican las siguientes limitaciones de interoperabilidad de BigQuery:
Los suscriptores deben tener permisos explícitos para leer el conjunto de datos de origen para poder consultar vistas en conjuntos de datos vinculados. Para conceder acceso a las vistas, los editores deben crear vistas autorizadas. Las vistas autorizadas pueden conceder a los suscriptores acceso a los datos de la vista sin darles acceso a los datos de origen subyacentes.
El plan de consultas muestra la consulta de la vista compartida y la consulta rutinaria, incluidos los IDs de proyecto y otros conjuntos de datos implicados en las vistas autorizadas. No incluyas información sensible, como claves de cifrado, en la vista compartida ni en la consulta de rutina.
Los conjuntos de datos compartidos se indexan en Data Catalog (obsoleto) y Dataplex Universal Catalog. Las actualizaciones de un conjunto de datos compartido, como la adición de tablas o vistas, se ponen a disposición de los suscriptores sin demora. Sin embargo, en algunos casos, por ejemplo, cuando hay más de cien suscriptores o tablas en un conjunto de datos compartido, las actualizaciones pueden tardar hasta 18 horas en indexarse en estos servicios. Debido al retraso en la indexación, los suscriptores no pueden buscar estos recursos actualizados en la consola de Google Cloud inmediatamente.
Los temas compartidos se indexan en Data Catalog (obsoleto) y en Dataplex Universal Catalog, pero no puedes filtrar específicamente por su tipo de recurso.
Si has configurado políticas de seguridad a nivel de fila o de anonimización de datos en las tablas que se muestran, los suscriptores deben tener una cuenta de Enterprise o Enterprise Plus para ejecutar el trabajo de consulta en el conjunto de datos vinculado. Para obtener información sobre las ediciones, consulta Introducción a las ediciones de BigQuery.
Si eres suscriptor, se aplican las siguientes limitaciones de interoperabilidad de BigQuery:
No se admiten las vistas materializadas que hacen referencia a tablas del conjunto de datos vinculado.
No se pueden hacer capturas de tablas de conjuntos de datos vinculados.
Es posible que las consultas con conjuntos de datos vinculados y las instrucciones
JOIN
que superen 1 TB (almacenamiento físico) no funcionen. Puedes ponerte en contacto con el equipo de Asistencia para resolver este problema.No puedes usar calificadores de región con vistas
INFORMATION_SCHEMA
para ver los metadatos de tu conjunto de datos vinculado.Cuando se consultan rutinas en un conjunto de datos vinculado, solo se pueden consultar los tipos de rutina Funciones definidas por el usuario (tanto las funciones definidas por el usuario de SQL como las de JavaScript) y Funciones de tabla. Si consultas un tipo de rutina no admitido, se mostrará el siguiente mensaje de error:
Querying routine type type is not yet supported on linked dataset dataset.
Se aplican las siguientes limitaciones a las fichas de varias regiones:
- Las fichas de varias regiones solo se admiten en conjuntos de datos compartidos y réplicas de conjuntos de datos vinculados. No se admiten las fichas de varias regiones para temas y suscripciones de Editor/Suscriptor compartidos.
- Las fichas de varias regiones no se admiten en las salas limpias de datos.
- No se admiten fichas de varias regiones en las regiones de BigQuery Omni.
Se aplican las siguientes limitaciones a las métricas de uso:
No puedes obtener las métricas de uso de las fichas a las que te suscribiste antes del 20 de julio del 2023.
Las métricas de uso de tablas externas de los campos
num_rows_processed
ytotal_bytes_processed
pueden contener datos inexactos.Las métricas de uso del consumo solo se admiten para el uso de tareas de BigQuery. No se admite el consumo con los siguientes recursos:
Las métricas de uso de las vistas solo se rellenan en las consultas posteriores al 22 de abril del 2024.
Las métricas de uso no se registran en las suscripciones de Pub/Sub vinculadas en BigQuery (puedes seguir viendo el uso directamente en Pub/Sub).
Se aplican las siguientes limitaciones al suscribirse a datos de Salesforce Data Cloud:
- Los datos de Data Cloud se comparten como vistas. Como suscriptor, no puedes acceder a las tablas subyacentes a las que hacen referencia las vistas.
Regiones disponibles
BigQuery sharing está disponible en las siguientes regiones y multirregiones.
Regiones
En la siguiente tabla se indican las regiones de América en las que se puede compartir contenido.Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Columbus (Ohio) | us-east5 |
|
Dallas | us-south1 |
|
Iowa | us-central1 |
|
Las Vegas | us-west4 |
|
Los Ángeles | us-west2 |
|
México | northamerica-south1 |
|
Montreal | northamerica-northeast1 |
|
Norte de Virginia | us-east4 |
|
Oklahoma | us-central2 |
|
Oregón | us-west1 |
|
Salt Lake City | us-west3 |
|
São Paulo | southamerica-east1 |
|
Santiago | southamerica-west1 |
|
Carolina del Sur | us-east1 |
|
Toronto | northamerica-northeast2 |
|
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Deli | asia-south2 |
|
Hong Kong | asia-east2 |
|
Yakarta | asia-southeast2 |
|
Melbourne | australia-southeast2 |
|
Bombay | asia-south1 |
|
Osaka | asia-northeast2 |
|
Seúl | asia-northeast3 |
|
Singapur | asia-southeast1 |
|
Sídney | australia-southeast1 |
|
Taiwán | asia-east1 |
|
Tokio | asia-northeast1 |
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Bélgica | europe-west1 |
|
Berlín | europe-west10 |
|
Finlandia | europe-north1 |
|
Fráncfort | europe-west3 |
|
Londres | europe-west2 |
|
Madrid | europe-southwest1 |
|
Milán | europe-west8 |
|
Países Bajos | europe-west4 |
|
París | europe-west9 |
|
Turín | europe-west12 |
|
Varsovia | europe-central2 |
|
Zúrich | europe-west6 |
|
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Dammam | me-central2 |
|
Doha | me-central1 |
|
Tel Aviv | me-west1 |
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Johannesburgo | africa-south1 |
Multirregional
En la siguiente tabla se indican las multirregiones en las que se puede compartir contenido.Descripción multirregional | Nombre multirregional |
---|---|
Centros de datos en Estados miembros de la Unión Europea1 | EU |
Centros de datos en Estados Unidos | US |
1 Los datos ubicados en la multirregión EU
no se almacenan en los centros de datos europe-west2
(Londres) ni europe-west6
(Zúrich).
Regiones omnicanal
En la siguiente tabla se indica en qué canales de Omni se puede compartir.Descripción de la región de Omni | Nombre de la región de Omni | |
---|---|---|
AWS | ||
AWS: Este de EE. UU. Virginia) | aws-us-east-1 |
|
AWS - Oeste de EE. UU. (Oregón) | aws-us-west-2 |
|
AWS - Asia Pacífico (Seúl) | aws-ap-northeast-2 |
|
AWS - Asia Pacífico (Sídney) | aws-ap-southeast-2 |
|
AWS - Europa (Irlanda) | aws-eu-west-1 |
|
AWS - Europa (Fráncfort) | aws-eu-central-1 |
|
Azure | ||
Azure - Este de EE. UU. 2 | azure-eastus2 |
Caso práctico de ejemplo
En esta sección se muestra un ejemplo de cómo puedes usar la función de compartir en BigQuery.
Supongamos que eres un comercio y tu organización tiene datos de previsión de la demanda en tiempo real en un Google Cloud proyecto llamado Previsión. Quieres compartir estos datos de previsión de la demanda con cientos de proveedores de tu sistema de cadena de suministro. A continuación, te explicamos cómo puedes compartir tus datos con proveedores mediante la función de compartir de BigQuery:
Administradores
Como propietario del proyecto Previsiones, primero debe habilitar la API y, a continuación, asignar el rol Administrador de Analytics Hub a un usuario que gestione el intercambio de datos en el proyecto. Los usuarios con el rol de administrador de Analytics Hub se denominan administradores.
Este administrador puede hacer lo siguiente:
Crea, actualiza, elimina y comparte el intercambio de datos en el proyecto Previsiones de tu organización.
Gestionar otros administradores con el rol de administrador de Analytics Hub.
Gestiona los editores concediendo el rol Editor de Analytics Hub a los empleados de tu organización. Si quieres que algunos empleados solo puedan actualizar, eliminar y compartir fichas, pero no crearlas, puedes asignarles el rol de administrador de fichas de Centro de análisis.
Gestionar suscriptores asignando el rol Suscriptor de Centro de analíticas a un grupo de Google formado por todos los proveedores. Si quiere que algunos proveedores solo tengan acceso de lectura a las subastas y los anuncios disponibles, puede asignarles el rol Lector de Centro de analíticas. Estos proveedores no pueden suscribirse a fichas.
Para obtener más información, consulta Gestionar intercambios de datos.
Editores
Los editores crean las siguientes fichas para sus conjuntos de datos en el proyecto Previsiones o en otro proyecto:
- Anuncio A: conjunto de datos de previsión de demanda 1
- Ficha B: conjunto de datos de previsión de la demanda 2
- Ficha C: conjunto de datos de previsión de demanda 3
Como proveedor de datos, puede monitorizar las métricas de uso de su conjunto de datos compartido. Las métricas de uso incluyen los siguientes detalles:
- Tareas que se ejecutan en tu conjunto de datos compartido.
- Los detalles del consumo de tu conjunto de datos compartido por los proyectos y la organización de los suscriptores.
- Número de filas y bytes procesados por el trabajo.
Para obtener más información, consulta el artículo Gestionar fichas.
Suscriptores
Los suscriptores pueden consultar los anuncios a los que tienen acceso en los intercambios de datos. También pueden suscribirse a estas fichas y añadir estos conjuntos de datos a sus proyectos creando un conjunto de datos vinculado. Los proveedores pueden ejecutar consultas en estos conjuntos de datos vinculados y obtener resultados en tiempo real.
Para obtener más información, consulta Ver fichas y suscribirse a ellas.
Precios
No hay ningún coste adicional por gestionar intercambios de datos o fichas.
En el caso de los conjuntos de datos de BigQuery, se cobra a los editores por el almacenamiento de datos, mientras que los suscriptores pagan por las consultas que se ejecutan en los datos compartidos según los modelos de precios bajo demanda o basados en la capacidad. Para obtener información sobre los precios, consulta los precios de BigQuery.
En Pub/Sub, se cobra a los editores de temas por el número total de bytes escritos (rendimiento de publicación) en el tema compartido y por la salida de red (si procede). A los suscriptores se les cobra el número total de bytes leídos (rendimiento de suscripción) de la suscripción vinculada y la salida de red (si procede). Consulta la lista de precios de Pub/Sub para obtener más información.
Cuotas
Para obtener información sobre las cuotas de uso compartido de BigQuery, consulta Cuotas y límites.
Cumplimiento
El uso compartido, como parte de BigQuery, cumple los siguientes programas de cumplimiento:
Controles de Servicio de VPC
Puedes definir las reglas de entrada y salida necesarias para permitir que los editores y los suscriptores accedan a los datos de los proyectos que tienen perímetros de Controles de Servicio de VPC. Para obtener más información, consulta Compartir reglas de Controles de Servicio de VPC.
Siguientes pasos
- Consulte cómo ver y suscribirse a fichas.
- Consulta cómo conceder roles de Analytics Hub.