Introducción al gobierno de datos en BigQuery

BigQuery tiene funciones de gobierno integradas que simplifican la forma de descubrir, gestionar, monitorizar, gobernar y usar tus datos y recursos de IA.

Los administradores, los responsables de datos, los gestores de gobierno de datos y los custodios de datos pueden usar las funciones de gobierno de BigQuery para hacer lo siguiente:

  • Descubrir datos.
  • Curar datos.
  • Recopila y enriquece metadatos.
  • Gestionar la calidad de los datos.
  • Asegúrate de que los datos se usen de forma coherente y de acuerdo con las políticas de la organización.
  • Compartir datos a gran escala y de forma segura.

Las funciones de gobierno de BigQuery se basan en Dataplex Universal Catalog, un inventario centralizado de todos los recursos de datos de tu organización. Dataplex Universal Catalog contiene metadatos empresariales, técnicos y operativos de todos tus datos. Te ayuda a descubrir relaciones y semántica en los metadatos aplicando inteligencia artificial y aprendizaje automático.

El metastore de BigLake te permite usar varios motores de procesamiento de datos para consultar una única copia de los datos con un solo esquema, sin duplicar los datos. Entre los motores de procesamiento de datos que puedes usar se incluyen BigQuery, Apache Spark, Apache Flink y Apache Hive. Sus datos se pueden almacenar en ubicaciones como tablas de almacenamiento de BigQuery, tablas de BigLake para Apache Iceberg en BigQuery o tablas externas de BigLake.

BigQuery admite todo el ciclo de vida de los datos, desde el descubrimiento hasta el uso de los datos. Las funciones de gobernanza también están disponibles en Dataplex Universal Catalog.

Descubrimiento de datos

BigQuery descubre datos en toda la organización, Google Cloud, tanto si están en BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. Los metadatos se extraen y se almacenan automáticamente en Dataplex Universal Catalog. Por ejemplo, puede extraer metadatos de datos estructurados y sin estructurar de Cloud Storage, y puede crear automáticamente tablas de BigLake listas para hacer consultas a gran escala. De esta forma, puede realizar análisis con un motor de código abierto sin duplicar los datos.

También puede extraer y catalogar metadatos de fuentes de datos de terceros mediante conectores personalizados.

BigQuery ofrece las siguientes funciones de descubrimiento de datos:

  • Búsqueda. Busca datos y recursos de IA en todos los proyectos y en la organización. En BigQuery, en la Google Cloud consola, usa la búsqueda semántica (vista previa) para buscar recursos con un lenguaje cotidiano. También puedes buscar recursos mediante la búsqueda por palabras clave en Dataplex Universal Catalog.
  • Detección automática de datos de Cloud Storage. Analiza datos en segmentos de Cloud Storage para extraer y catalogar metadatos. Esta función crea tablas para datos estructurados y sin estructurar.
  • Importación de metadatos Importa metadatos a gran escala desde sistemas de terceros a Dataplex Universal Catalog. Puedes crear conectores personalizados para extraer datos de tus fuentes de datos y, a continuación, ejecutar flujos de procesamiento de conectividad gestionados que coordinen el flujo de trabajo de importación de metadatos.
  • Exportación de metadatos Exporta metadatos a gran escala desde Dataplex Universal Catalog. Puede analizar los metadatos exportados con BigQuery o integrarlos en aplicaciones personalizadas o flujos de trabajo de procesamiento programático.

Selección y custodia de datos

Para mejorar la visibilidad y la usabilidad de los datos, los responsables y los administradores de datos pueden usar BigQuery para revisar, actualizar y analizar metadatos. Las funciones de conservación y curación de datos de BigQuery te ayudan a asegurarte de que tus datos sean precisos, coherentes y estén alineados con las políticas de tu organización.

BigQuery ofrece las siguientes funciones de conservación y gestión de datos:

  • Glosario empresarial Mejora el contexto, la colaboración y la búsqueda definiendo la terminología de tu organización en un glosario. Identifica a los responsables de los datos de los términos y vincula los términos a los campos de los recursos de datos.
  • Información valiosa de los datos Gemini usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas SQL para responderlas. Estas estadísticas te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
  • Creación de perfiles de datos. Identifica las características estadísticas comunes de las columnas de las tablas de BigQuery para comprender y analizar tus datos de forma más eficaz.
  • Calidad de los datos. Define y ejecuta comprobaciones de calidad de los datos en las tablas de BigQuery y Cloud Storage, y aplica controles de datos periódicos y continuos en entornos de BigQuery.
  • Linaje de datos. Monitoriza cómo se mueven los datos por tus sistemas: de dónde proceden, a dónde se envían y qué transformaciones se les aplican. BigQuery admite el linaje de datos a nivel de tabla y de columna.

Pasos siguientes para la selección y la gestión de datos

En la siguiente tabla se indican los pasos que puede seguir para obtener más información sobre las funciones de curación y gestión de datos:

Nivel de experiencia Plan de formación
Nuevos usuarios de la nube
  • Ejecuta un análisis de perfil de datos para obtener información valiosa sobre tus datos, incluidos los límites o las medias de tus datos.
Usuarios con experiencia en la nube

Seguridad y control de acceso

La gestión del acceso a los datos es el proceso de definir, aplicar y monitorizar las reglas y las políticas que rigen quién tiene acceso a los datos. La gestión de acceso asegura que solo puedan acceder a los datos los usuarios autorizados.

BigQuery ofrece las siguientes funciones de seguridad y control de acceso:

  • Gestión de Identidades y Accesos (IAM). IAM te permite controlar quién tiene acceso a tus recursos de BigQuery, como proyectos, conjuntos de datos, tablas y vistas. Puedes asignar roles de gestión de identidades y accesos a usuarios, grupos y cuentas de servicio. Estos roles definen lo que pueden hacer con tus recursos.
  • Controles de acceso a nivel de columna y controles de acceso a nivel de fila. Los controles de acceso a nivel de columna y de fila te permiten restringir el acceso a columnas y filas específicas de una tabla en función de los atributos de los usuarios o de los valores de los datos. Este control te permite implementar un acceso detallado para proteger los datos sensibles frente a accesos no autorizados.
  • Gestión de la transferencia de datos. Controles de Servicio de VPC te permite crear perímetros alrededor de los Google Cloud recursos y controlar el acceso a ellos en función de las políticas de tu organización.
  • Registros de auditoría Los registros de auditoría proporcionan un registro detallado de la actividad de los usuarios y los eventos del sistema de tu organización. Estos registros le ayudan a aplicar las políticas de gobierno de datos e identificar posibles riesgos de seguridad.
  • Máscara de datos. El enmascaramiento de datos te permite ocultar datos sensibles de una tabla y, al mismo tiempo, permitir que los usuarios autorizados accedan a los datos circundantes. El enmascaramiento de datos también puede ocultar datos que coincidan con patrones de datos sensibles, lo que protege frente a la divulgación accidental de datos.
  • Cifrado BigQuery cifra automáticamente todos los datos en reposo y en tránsito, al tiempo que te permite personalizar la configuración de cifrado para cumplir tus requisitos específicos.

Pasos siguientes para la seguridad y el control de acceso

En la siguiente tabla se describen los pasos que puedes seguir para obtener más información sobre las funciones de control de acceso:

Nivel de experiencia Plan de formación
Nuevos usuarios de la nube
Usuarios con experiencia en la nube

Datos e información valiosa compartidos

BigQuery te permite compartir datos y estadísticas a gran escala dentro y entre organizaciones. Cuenta con un sólido marco de seguridad y privacidad a través de una plataforma de intercambio de datos integrada. Con BigQuery sharing, puedes descubrir, acceder y usar una biblioteca de datos elaborada por una amplia selección de proveedores de datos.

BigQuery ofrece las siguientes funciones para compartir datos:

  • Comparte más que datos. Puedes compartir una amplia gama de datos y recursos de IA, como conjuntos de datos, tablas, vistas y flujos en tiempo real de BigQuery con temas de Pub/Sub, procedimientos almacenados de SQL y modelos de BigQuery ML.
  • Accede a los conjuntos de datos de Google. Mejora tus iniciativas de analíticas y aprendizaje automático con conjuntos de datos de Google procedentes de Tendencias de búsqueda, modelos de DeepMind WeatherNext, Google Maps Platform, Google Earth Engine y más.
  • Integración con los principios de la gobernanza de datos. Los propietarios de los datos conservan el control sobre ellos y pueden definir y configurar reglas o políticas para restringir el acceso y el uso.
  • Compartir datos en directo sin necesidad de copiar. Los datos se comparten in situ sin necesidad de integración, movimiento ni replicación de datos, lo que asegura que el análisis se basa en la información más reciente. Los conjuntos de datos vinculados que se crean son un puntero activo al recurso compartido.
  • Mejorar la postura de seguridad. Puedes usar controles de acceso para reducir el aprovisionamiento excesivo de acceso, incluida la compatibilidad integrada con Controles de Servicio de VPC.
  • Aumenta la visibilidad con las métricas de uso del proveedor. Los editores de datos pueden ver y monitorizar el uso de los recursos compartidos, como el número de trabajos ejecutados, el total de bytes analizados y los suscriptores de cada organización.
  • Colaborar en datos sensibles con data cleanrooms. Las salas blancas de datos proporcionan un entorno de seguridad mejorada en el que varias partes pueden compartir, combinar y analizar sus recursos de datos sin mover ni revelar los datos subyacentes.
  • Desarrollado en BigQuery. Puedes aprovechar la escalabilidad y las enormes capacidades de procesamiento de BigQuery para colaborar a gran escala.

Pasos siguientes para compartir

En la siguiente tabla se describen los pasos que puedes seguir para obtener más información sobre las funciones para compartir:

Nivel de experiencia Plan de formación
Nuevos usuarios de la nube
  • Consulta cómo crear y gestionar intercambios y anuncios para empezar a compartir contenido dentro o fuera de tu organización.
Usuarios con experiencia en la nube

Siguientes pasos