Introducción a la administración de datos en BigQuery

BigQuery tiene funciones de administración integradas que simplifican la manera en que descubres, administras, supervisas, administras y usas tus datos y recursos de IA.

Los administradores, los custodios de datos, los administradores de administración de datos y los custodios de datos pueden usar las funciones de administración de BigQuery para hacer lo siguiente:

  • Descubre datos.
  • Selecciona los datos.
  • Recopilar y enriquecer metadatos
  • Administra la calidad de los datos.
  • Asegúrate de que los datos se usen de forma coherente y de acuerdo con las políticas de la organización.
  • Comparte datos a gran escala y de forma segura.

Las funciones de administración de BigQuery se basan en el catálogo universal de Dataplex, un inventario centralizado de todos los activos de datos de tu organización. Dataplex Universal Catalog contiene metadatos empresariales, técnicos y operativos para todos tus datos. Te ayuda a descubrir relaciones y semánticas en los metadatos aplicando inteligencia artificial y aprendizaje automático.

BigLake Metastore te permite usar varios motores de procesamiento de datos para consultar una sola copia de datos con un solo esquema, sin duplicar los datos. Los motores de procesamiento de datos que puedes usar incluyen BigQuery, Apache Spark, Apache Flink y Apache Hive. Tus datos se pueden almacenar en ubicaciones como las tablas de almacenamiento de BigQuery, las tablas de BigLake para Apache Iceberg en BigQuery o las tablas externas de BigLake.

BigQuery admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento hasta el uso de los datos. Las funciones de administración también están disponibles en el catálogo universal de Dataplex.

Detección de datos

BigQuery descubre datos en toda la organización en Google Cloud, ya sea que los datos estén en BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. Los metadatos se extraen y almacenan automáticamente en Dataplex Universal Catalog. Por ejemplo, puedes extraer metadatos de datos estructurados y no estructurados de Cloud Storage, y puedes crear automáticamente tablas de BigLake listas para consultas a gran escala. Esto te permite realizar análisis con un motor de código abierto sin duplicar los datos.

También puedes extraer y catalogar metadatos de fuentes de datos de terceros con conectores personalizados.

BigQuery ofrece las siguientes capacidades de descubrimiento de datos:

  • Búsqueda. Busca recursos de datos y de IA en los proyectos y la organización. En BigQuery, en la consola de Google Cloud , usa la búsqueda semántica (Versión preliminar) para buscar recursos con lenguaje cotidiano. También puedes encontrar recursos con la búsqueda de palabras clave en Dataplex Universal Catalog.
  • Descubrimiento automático de datos de Cloud Storage. Busca datos en los buckets de Cloud Storage para extraer y, luego, catalogar metadatos. El descubrimiento automático crea tablas para datos estructurados y no estructurados.
  • Importación de metadatos. Importa metadatos a gran escala desde sistemas de terceros al catálogo universal de Dataplex. Puedes compilar conectores personalizados para extraer datos de tus fuentes de datos y, luego, ejecutar canalizaciones de conectividad administradas que organicen el flujo de trabajo de importación de metadatos.
  • Exportación de metadatos. Exporta metadatos a gran escala desde el catálogo universal de Dataplex. Puedes analizar los metadatos exportados con BigQuery o integrarlos en aplicaciones personalizadas o flujos de trabajo de procesamiento programático.

Selección y administración de datos

Para mejorar la visibilidad y la usabilidad de los datos, los administradores y los custodios de datos pueden usar BigQuery para revisar, actualizar y analizar los metadatos. Las funciones de selección y administración de datos de BigQuery te ayudan a garantizar que tus datos sean precisos, coherentes y estén alineados con las políticas de tu organización.

BigQuery ofrece las siguientes funciones de selección y administración de datos:

  • Glosario de términos comerciales (Versión preliminar). Define la terminología de tu organización en un glosario para mejorar el contexto, la colaboración y la búsqueda. Identifica a los administradores de datos de los términos y adjúntalos a los campos de recursos de datos.
  • Estadísticas de datos. Gemini usa metadatos para generar preguntas de lenguaje natural sobre tu tabla y las consultas en SQL para responderlas. Estas estadísticas de datos te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
  • Creación de perfiles de datos. Identifica características estadísticas comunes de las columnas en las tablas de BigQuery para comprender y analizar tus datos de manera más eficaz.
  • Calidad de los datos. Define y ejecuta verificaciones de calidad de los datos en todas las tablas de BigQuery y Cloud Storage, y aplica controles de datos regulares y continuos en entornos de BigQuery.
  • Linaje de datos. Hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se les aplican BigQuery admite el linaje de datos a nivel de la tabla y la columna.

Próximos pasos para la selección y la administración de datos

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de selección y administración de datos:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube

Seguridad y control de acceso

La administración de acceso a los datos es el proceso de definir, aplicar y supervisar las reglas y políticas que controlan quién tiene acceso a los datos. La administración de acceso garantiza que solo quienes están autorizados para acceder a los datos tengan acceso a ellos.

BigQuery ofrece las siguientes funciones de seguridad y control de acceso:

  • Identity and Access Management (IAM). IAM te permite controlar quién tiene acceso a tus recursos de BigQuery, como proyectos, conjuntos de datos, tablas y vistas. Puedes otorgar roles de IAM a usuarios, grupos y cuentas de servicio. Estos roles definen lo que pueden hacer con tus recursos.
  • Controles de acceso a nivel de columna y controles de acceso a nivel de fila. Los controles de acceso a nivel de columna y a nivel de fila te permiten restringir el acceso a columnas y filas específicas en una tabla según los atributos de usuario o los valores de datos. Este control te permite implementar un acceso detallado para ayudar a proteger los datos sensibles del acceso no autorizado.
  • Administración de transferencia de datos. Los Controles del servicio de VPC te permiten crear perímetros en los recursos de Google Cloud y controlar el acceso a esos recursos según las políticas de tu organización.
  • Registros de auditoría. Los registros de auditoría te proporcionan un registro detallado de la actividad del usuario y los eventos del sistema en tu organización. Estos registros te ayudan a aplicar políticas de administración de datos y a identificar posibles riesgos de seguridad.
  • Enmascaramiento de datos. El enmascaramiento de datos te permite ocultar los datos sensibles en una tabla, a la vez que permite que los usuarios autorizados accedan a los datos que los rodean. El enmascaramiento de datos también puede ocultar datos que coincidan con patrones de datos sensibles, lo que brinda protección contra la divulgación accidental de datos.
  • Encriptación. BigQuery encripta automáticamente todos los datos en reposo y en tránsito, a la vez que te permite personalizar la configuración de encriptación para que cumpla con tus requisitos específicos.

Próximos pasos para la seguridad y el control de acceso

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de control de acceso:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube

Datos y estadísticas compartidos

BigQuery te permite compartir datos y estadísticas a gran escala dentro y fuera de los límites de la organización. Tiene un marco de trabajo sólido de seguridad y privacidad a través de una plataforma de intercambio de datos integrada. Con el uso compartido de BigQuery, puedes descubrir, acceder y consumir una biblioteca de datos seleccionada por una amplia selección de proveedores de datos.

BigQuery ofrece las siguientes capacidades de uso compartido:

  • Comparte más que datos. Puedes compartir una amplia variedad de recursos de datos y AA, como conjuntos de datos, tablas, vistas y transmisiones en tiempo real de BigQuery con temas de Pub/Sub, procedimientos almacenados de SQL y modelos de BigQuery ML.
  • Accede a los conjuntos de datos de Google. Mejora tus iniciativas de estadísticas y AA con conjuntos de datos de Google de las Tendencias de búsqueda, los modelos de DeepMind WeatherNext, Google Maps Platform, Google Earth Engine y mucho más.
  • Integración con los principios de administración de datos Los propietarios de los datos retienen el control sobre sus datos y pueden definir y configurar reglas o políticas para restringir el acceso y el uso.
  • Uso compartido de datos en vivo sin copia: Los datos se comparten en su lugar sin necesidad de integración, movimiento de datos ni replicación, lo que garantiza que el análisis se base en la información más reciente. Los conjuntos de datos vinculados que se crean son un puntero activo al activo compartido.
  • Mejora la postura de seguridad. Puedes usar controles de acceso para reducir el acceso de aprovisionamiento excesivo, incluida la compatibilidad integrada con los Controles del servicio de VPC.
  • Aumentar la visibilidad con las métricas de uso del proveedor Los publicadores de datos pueden ver y supervisar el uso de los recursos compartidos, como la cantidad de trabajos ejecutados, el total de bytes analizados y los suscriptores de cada organización.
  • Colabora en datos sensibles con salas limpias de datos. Las salas limpias de datos proporcionan un entorno con seguridad mejorada en el que varias partes pueden compartir, unir y analizar sus recursos de datos sin mover ni revelar los datos subyacentes.
  • Se compila en BigQuery. Puedes basarte en la escalabilidad y las capacidades de procesamiento masivo de BigQuery, lo que permite colaboraciones a gran escala.

Próximos pasos para compartir

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de uso compartido:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
  • Aprende a crear y administrar intercambios y anuncios para comenzar a compartirlos dentro o fuera de tu organización.
Usuarios con experiencia en la nube

¿Qué sigue?