Introducción a la administración de datos en BigQuery
BigQuery tiene funciones de administración integradas que simplifican la manera en que descubres, administras, supervisas, administras y usas tus datos y recursos de IA.
Los administradores, los custodios de datos, los administradores de administración de datos y los custodios de datos pueden usar las funciones de administración de BigQuery para hacer lo siguiente:
- Descubre datos.
- Selecciona los datos.
- Recopilar y enriquecer metadatos
- Administra la calidad de los datos.
- Asegúrate de que los datos se usen de forma coherente y de acuerdo con las políticas de la organización.
- Comparte datos a gran escala y de forma segura.
En el centro de las funciones de administración de BigQuery, se encuentra el catálogo universal, un inventario centralizado de todos los recursos de datos de tu organización. El catálogo universal contiene metadatos empresariales, técnicos y de tiempo de ejecución para todos tus datos. Te ayuda a descubrir relaciones y semánticas en los metadatos aplicando inteligencia artificial y aprendizaje automático.
El catálogo universal reúne un catálogo de datos y un metastore de tiempo de ejecución completamente administrado. El metastore de BigQuery te permite usar varios motores de procesamiento de datos para consultar una sola copia de datos con un solo esquema, sin duplicar los datos. Los motores de procesamiento de datos que puedes usar incluyen BigQuery, Apache Spark, Apache Flink y Apache Hive. Tus datos se pueden almacenar en ubicaciones como las tablas de almacenamiento de BigQuery, las tablas de BigQuery para Apache Iceberg o las tablas externas de BigLake.
BigQuery admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento hasta el uso de los datos. El catálogo universal potencia las funciones y capacidades de administración de BigQuery. Las funciones de gobernanza también están disponibles en Dataplex.
Detección de datos
BigQuery descubre datos en toda la organización en Google Cloud, ya sea que los datos estén en BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. BigQuery extrae los metadatos automáticamente y los almacena en el catálogo universal. Por ejemplo, puedes usar BigQuery para extraer metadatos de datos estructurados y no estructurados de Cloud Storage, y crear automáticamente tablas de BigLake listas para consultas a gran escala. Esto te permite realizar análisis con un motor de código abierto sin duplicar los datos.
También puedes extraer y catalogar metadatos de fuentes de datos de terceros con conectores personalizados.
BigQuery ofrece las siguientes capacidades de descubrimiento de datos:
- Buscar. Busca recursos de datos y de IA en todos los proyectos con BigQuery en la consola de Google Cloud. BigQuery admite la búsqueda semántica para el descubrimiento de datos, lo que te permite realizar búsquedas con consultas de lenguaje natural.
- Descubrimiento automático de datos de Cloud Storage. Busca datos en los buckets de Cloud Storage para extraer y, luego, catalogar metadatos. El descubrimiento automático crea tablas para datos estructurados y no estructurados.
- Importación de metadatos. Importa metadatos a gran escala desde sistemas de terceros al catálogo universal. Puedes compilar conectores personalizados para extraer datos de tus fuentes de datos y, luego, ejecutar canalizaciones de conectividad administradas que organicen el flujo de trabajo de importación de metadatos.
Selección y administración de datos
Para mejorar la visibilidad y la usabilidad de los datos, los administradores y los custodios de datos pueden usar BigQuery para revisar, actualizar y analizar los metadatos. Las funciones de selección y administración de datos de BigQuery te ayudan a garantizar que tus datos sean precisos, coherentes y estén alineados con las políticas de tu organización.
BigQuery ofrece las siguientes funciones de selección y administración de datos:
- Glosario de términos comerciales (Versión preliminar). Define la terminología de tu organización en un glosario para mejorar el contexto, la colaboración y la búsqueda. Identifica a los administradores de datos de los términos y adjúntalos a los campos de recursos de datos.
- Estadísticas de datos. Gemini usa metadatos para generar preguntas de lenguaje natural sobre tu tabla y las consultas en SQL para responderlas. Estas estadísticas de datos te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
- Creación de perfiles de datos. Identifica características estadísticas comunes de las columnas en las tablas de BigQuery para comprender y analizar tus datos de manera más eficaz.
- Calidad de los datos. Define y ejecuta verificaciones de calidad de los datos en todas las tablas de BigQuery y Cloud Storage, y aplica controles de datos regulares y continuos en los entornos de BigQuery.
- Linaje de datos. Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se les aplican. BigQuery admite el linaje de datos a nivel de la tabla y la columna.
Próximos pasos para la selección y la administración de datos
En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de selección y administración de datos:
Nivel de experiencia | Ruta de aprendizaje |
---|---|
Usuarios nuevos en la nube |
|
Usuarios con experiencia en la nube |
|
Seguridad y control de acceso
La administración de acceso a los datos es el proceso de definir, aplicar y supervisar las reglas y políticas que controlan quién tiene acceso a los datos. La administración de acceso garantiza que solo quienes están autorizados para acceder a los datos tengan acceso a ellos.
BigQuery ofrece las siguientes funciones de seguridad y control de acceso:
- Identity and Access Management (IAM). IAM te permite controlar quién tiene acceso a tus recursos de BigQuery, como proyectos, conjuntos de datos, tablas y vistas. Puedes otorgar roles de IAM a usuarios, grupos y cuentas de servicio. Estos roles definen lo que pueden hacer con tus recursos.
- Controles de acceso a nivel de columna y controles de acceso a nivel de fila. Los controles de acceso a nivel de columna y a nivel de fila te permiten restringir el acceso a columnas y filas específicas en una tabla según los atributos de usuario o los valores de datos. Este control te permite implementar un acceso detallado para ayudar a proteger los datos sensibles del acceso no autorizado.
- Administración de transferencia de datos. Los Controles del servicio de VPC te permiten crear perímetros en los recursos de Google Cloud y controlar el acceso a esos recursos según las políticas de tu organización.
- Registros de auditoría. Los registros de auditoría te proporcionan un registro detallado de la actividad del usuario y los eventos del sistema en tu organización. Estos registros te ayudan a aplicar políticas de administración de datos y a identificar posibles riesgos de seguridad.
- Enmascaramiento de datos. El enmascaramiento de datos te permite ocultar los datos sensibles en una tabla, a la vez que permite que los usuarios autorizados accedan a los datos que los rodean. El enmascaramiento de datos también puede ocultar datos que coincidan con patrones de datos sensibles, lo que brinda protección contra la divulgación accidental de datos.
- Encriptación. BigQuery encripta de forma automática todos los datos en reposo y en tránsito, a la vez que te permite personalizar la configuración de encriptación para que cumpla con tus requisitos específicos.
Próximos pasos para la seguridad y el control de acceso
En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de control de acceso:
Nivel de experiencia | Ruta de aprendizaje |
---|---|
Usuarios nuevos en la nube |
|
Usuarios con experiencia en la nube |
|
Datos y estadísticas compartidos
BigQuery te permite compartir datos y estadísticas a gran escala dentro y fuera de los límites de la organización. Tiene un marco de trabajo sólido de seguridad y privacidad a través de una plataforma de intercambio de datos integrada. Con el compartir de BigQuery, puedes descubrir, acceder y consumir una biblioteca de datos seleccionada por una amplia selección de proveedores de datos.
BigQuery ofrece las siguientes capacidades de uso compartido:
- Comparte más que datos. Puedes compartir una amplia variedad de recursos de datos y de IA, como conjuntos de datos, tablas, vistas, transmisiones en tiempo real de BigQuery con temas de Pub/Sub, procedimientos almacenados de SQL y modelos de BigQuery ML.
- Accede a los conjuntos de datos de Google. Mejora tus iniciativas de AA y estadísticas con conjuntos de datos de Google de las Tendencias de búsqueda, los modelos de DeepMind WeatherNext, Google Maps Platform, Google Earth Engine y mucho más.
- Integración con los principios de administración de datos Los propietarios de los datos retienen el control sobre sus datos y pueden definir y configurar reglas o políticas para restringir el acceso y el uso.
- Uso compartido de datos en vivo sin copia Los datos se comparten en su lugar sin necesidad de integración, movimiento de datos ni replicación, lo que garantiza que el análisis se base en la información más reciente. Los conjuntos de datos vinculados que se crean son un puntero activo al activo compartido.
- Mejora la postura de seguridad. Puedes usar controles de acceso para reducir el acceso de aprovisionamiento excesivo, incluida la compatibilidad integrada con los Controles del servicio de VPC.
- Aumentar la visibilidad con las métricas de uso del proveedor Los publicadores de datos pueden ver y supervisar el uso de los recursos compartidos, como la cantidad de trabajos ejecutados, el total de bytes analizados y los suscriptores de cada organización.
- Colabora en datos sensibles con salas limpias de datos. Las salas limpias de datos proporcionan un entorno con seguridad mejorada en el que varias partes pueden compartir, unir y analizar sus recursos de datos sin mover ni revelar los datos subyacentes.
- Se compila en BigQuery. Puedes basarte en la escalabilidad y las capacidades de procesamiento masivo de BigQuery, lo que permite colaboraciones a gran escala.
Próximos pasos para compartir
En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de uso compartido:
Nivel de experiencia | Ruta de aprendizaje |
---|---|
Usuarios nuevos en la nube |
|
Usuarios con experiencia en la nube |
|
¿Qué sigue?
- Obtén más información sobre la autenticación en Google.
- Obtén más información sobre la eliminación de datos en Google Cloud.
- Obtén más información sobre las prácticas recomendadas de IAM.
- Obtén información sobre la jerarquía de recursos en Google Cloud.
- Obtén más información sobre IAM en Google Cloud.