Introducción a la administración de BigQuery
En este documento se presenta una introducción a las tareas de administración de BigQuery y a las funciones de BigQuery que le ayudan a llevarlas a cabo.
Los administradores de BigQuery suelen realizar los siguientes tipos de tareas:
- Gestionar recursos, como proyectos, conjuntos de datos y tablas.
- Protege los recursos para que solo puedan acceder a ellos las entidades que lo necesiten.
- Gestionar cargas de trabajo, como trabajos, consultas y capacidad de computación (reservas).
- Monitoriza los recursos, incluidas las cuotas, los trabajos y el uso de los recursos de computación.
- Optimiza las cargas de trabajo para obtener el mejor rendimiento posible y, al mismo tiempo, controlar los costes.
- Soluciona problemas con mensajes de error, problemas de facturación y cuotas.
En este documento se ofrece una descripción general de las funciones que proporciona BigQuery para ayudarte a llevar a cabo estas tareas.
Para hacer un recorrido por las funciones de administración de datos de BigQuery directamente en la Google Cloud consola, haz clic en Hacer el recorrido.
Herramientas
BigQuery ofrece varias interfaces que puede usar para realizar tareas de administración.
A menudo, una tarea concreta se puede realizar con varias herramientas, lo que te permite elegir la que mejor se adapte a tus necesidades. Por ejemplo, puedes crear una tabla mediante el panel Explorador de la consolaGoogle Cloud , el comando bq mk --table
o una instrucción CREATE TABLE
SQL.
- Google Cloud consola. La Google Cloud consola tiene varias páginas dedicadas a la administración de BigQuery. Para obtener más información, consulta Usar la consola Google Cloud .
Declaraciones SQL. La página de BigQuery de la consolaGoogle Cloud tiene un editor de consultas en el que puedes realizar tareas administrativas mediante instrucciones DDL y DCL. Para obtener más información, consulta Lenguaje de definición de datos (DDL) y Lenguaje de control de datos (DCL).
Puedes usar procedimientos almacenados para automatizar tareas de administración que usen instrucciones SQL. Para obtener más información, consulta Trabajar con procedimientos almacenados.
bq
comandos. La herramienta de línea de comandos bq te permite realizar muchas tareas administrativas mediante comandos debq
. Puedes usar la herramienta de línea de comandos bq para realizar tareas que no se admiten en la consola de Google Cloud , para crear prototipos de funciones antes de codificarlas en consultas o métodos de API, o si prefieres trabajar en una interfaz de línea de comandos. Para obtener más información, consulta Usar la herramienta de línea de comandos bq.
Gestionar recursos
Los recursos de BigQuery incluyen organizaciones, carpetas, proyectos, conjuntos de datos y tablas. En esta sección se describe cómo gestionar los recursos de tu organización.
Para obtener información sobre la jerarquía de recursos de BigQuery, consulta el artículo Organizar recursos de BigQuery. En concreto, puedes crear un recurso Organization, que te permite realizar algunas tareas, como definir controles de acceso, a nivel de organización.
Gestionar conjuntos de datos
Los conjuntos de datos son contenedores de tablas. Puedes crear tablas en un conjunto de datos y, después, gestionarlas como un grupo. Por ejemplo, puede configurar el tiempo de vencimiento predeterminado de una tabla de un conjunto de datos, que se aplicará a todas las tablas del conjunto de datos a menos que lo anule. Puedes copiar un grupo de tablas haciendo una copia de su conjunto de datos y controlar el acceso a las tablas a nivel del conjunto de datos.
Para obtener más información sobre la administración de conjuntos de datos, consulta los siguientes documentos:
- Para obtener más información sobre cómo crear, copiar, mover y actualizar conjuntos de datos, consulta el artículo Introducción a los conjuntos de datos.
- Para obtener más información sobre el control de acceso a nivel de conjunto de datos, consulta los artículos Controlar el acceso a los conjuntos de datos y Conjuntos de datos autorizados.
Gestionar tablas
En BigQuery, los datos se almacenan en tablas, donde se pueden consultar. Puede crear tablas, cargar datos en tablas desde varios tipos de fuentes y en varios formatos, particionar tablas en función de una columna específica o por tiempo de ingestión, agrupar tablas, actualizar las propiedades de las tablas y exportar datos de tablas.
Para obtener más información sobre la administración de tablas, consulta los siguientes documentos:
- Para obtener más información sobre cómo cargar datos en tablas de BigQuery, consulta el artículo Introducción a la carga de tablas.
- Para obtener más información sobre cómo gestionar tablas y exportar datos de tablas, consulta el artículo Introducción a las tablas.
- Para obtener más información sobre las particiones y los clústeres de tablas, consulta los artículos Introducción a las tablas con particiones y Introducción a las tablas agrupadas en clústeres.
Etiquetar recursos
Para organizar tus recursos de BigQuery, puedes añadir etiquetas a tus conjuntos de datos, tablas y vistas. Las etiquetas son pares clave-valor que puedes asociar a un recurso. Después de etiquetar tus recursos, puedes buscarlos en función de los valores de las etiquetas. Por ejemplo, puedes usar etiquetas para agrupar conjuntos de datos por departamento añadiendo etiquetas como dept:sales
, dept:marketing
o dept:analytics
.
Después, puedes desglosar los cargos facturados por departamento mediante las etiquetas.
Para obtener más información, consulta el artículo Introducción a las etiquetas.
Obtener información de recursos
Para obtener información sobre tus recursos de BigQuery, consulta las vistas INFORMATION_SCHEMA
. BigQuery proporciona vistas para cada tipo de recurso. Por ejemplo, la vista INFORMATION_SCHEMA.TABLES
contiene información sobre tus tablas.
A continuación, se indican algunos ejemplos de la información que puede obtener consultando vistas de INFORMATION_SCHEMA
:
- Ver cuándo se creó una tabla.
- Obtiene los nombres y los tipos de datos de cada columna de una tabla.
- Encuentra todos los trabajos que se están ejecutando en un proyecto.
- Obtiene una lista de las capturas de tabla que se han creado a partir de una tabla base.
- En el caso de un conjunto de datos, una tabla, una vista o una rutina, obtenga la instrucción DDL que se puede usar para crear el recurso.
- Obtiene las opciones que se usaron para crear una tabla (por ejemplo, table expiration).
- Buscar las columnas de partición y de agrupamiento en clústeres de una tabla.
- Obtiene la reserva asignada a un proyecto y su capacidad de ranuras.
Para obtener más información, consulta la introducción a BigQuery
INFORMATION_SCHEMA
.
Copiar datos
Puede que quieras crear copias de tus datos por varios motivos, como protegerlos frente a errores humanos o conservarlos para compararlos en el futuro. BigQuery ofrece varias opciones para copiar los datos de una tabla desde un momento concreto.
Viajes en el tiempo. Es posible que necesites acceder al estado de una tabla en algún momento de la semana anterior, por ejemplo, si los datos se han dañado debido a un error humano. BigQuery conserva el historial de datos de tus tablas durante siete días. Puedes acceder al historial de datos reciente de una tabla mediante la función de viaje en el tiempo.
Para obtener más información, consulta Acceder a datos históricos con la función de viaje en el tiempo.
Capturas de tablas. Si quieres acceder al estado de una tabla de hace más de una semana, te recomendamos que crees instantáneas de la tabla periódicamente. Las copias de las tablas son copias ligeras de solo lectura que te permiten conservar el estado de tus tablas indefinidamente. Con las instantáneas de tablas, por ejemplo, puedes comparar los datos actuales de una tabla con los datos de principios de año, lo que no es posible con la función de viaje en el tiempo. Solo se te cobra por almacenar los datos que difieren entre la tabla base y su instantánea.
Para obtener más información, consulta el artículo Introducción a las capturas de tablas.
Clones de tablas Si quieres hacer una copia ligera y editable de una tabla, puedes usar clones de tabla. Solo pagas por el almacenamiento de los datos que difieren entre una tabla base y su clon. Por ejemplo, puede crear clones de tablas en un entorno de pruebas para experimentar con copias de los datos de producción sin que estos se vean afectados y sin tener que pagar por el almacenamiento de copias completas de las tablas.
Para obtener más información, consulta el artículo Introducción a los clones de tablas.
Monitorizar el linaje de datos
El linaje de los datos es una función de Dataplex Universal Catalog que te permite monitorizar cómo se mueven los datos por tus sistemas: de dónde proceden, a dónde se transfieren y qué transformaciones se les aplican. Para obtener más información sobre cómo puede ayudarte el linaje de datos a monitorizar el movimiento de datos en tu proyecto, consulta Acerca del linaje de datos en Dataplex Universal Catalog.
Recursos seguros
La seguridad de BigQuery se basa en Google Cloud Gestión de Identidades y Accesos. BigQuery te permite controlar el acceso a tus recursos en muchos niveles, incluido el acceso a la organización, las carpetas, los proyectos, los conjuntos de datos, las tablas, las columnas de las tablas y las filas de las tablas.
Para obtener información sobre cómo controlar el acceso a tus recursos de BigQuery, consulta el artículo Descripción general de la seguridad y la gobernanza de los datos.
Gestionar cargas de trabajo
BigQuery realiza muchas tareas en nombre de tus usuarios, como la ingestión, la consulta y la exportación de datos. Cada tarea la realiza un trabajo de BigQuery. En esta sección se describe cómo puedes monitorizar y gestionar los trabajos de tu organización.
Administrar empleos
Los trabajos son acciones que BigQuery ejecuta en nombre de un usuario para cargar, exportar, consultar o copiar datos. Cuando un usuario inicia una de estas tareas mediante la Google Cloud consola, la herramienta de línea de comandos bq, una declaración SQL o una llamada a la API, BigQuery crea automáticamente una tarea para ejecutarla.
Como administrador de BigQuery, puedes monitorizar, gestionar y solucionar problemas de los trabajos de tu organización para asegurarte de que se ejecutan correctamente.
Para obtener más información, consulta el artículo Gestionar tareas.
Gestionar reservas
Cuando BigQuery ejecuta consultas, usa unidades de computación llamadas ranuras. BigQuery calcula cuántas ranuras se necesitan para ejecutar cada consulta en función de su tamaño y complejidad.
BigQuery tiene dos modelos de precios para cobrar por las ranuras que ejecutan tus consultas:
- Facturación bajo demanda. Tus consultas usan un grupo de ranuras compartidas y se te cobra por el número de bytes que procesan tus consultas. Para obtener más información sobre los límites de facturación bajo demanda, consulta Trabajos de consulta.
- Facturación basada en la capacidad. Asigna una reserva o un compromiso de capacidad a una edición, cada una de las cuales incluye su propio conjunto de funciones y precio para ofrecerte el mejor entorno de trabajo.
Estos modelos de precios se aplican por proyecto, por lo que puedes tener algunos proyectos que usen la facturación bajo demanda y otros que usen la facturación basada en la capacidad.
Con la facturación bajo demanda, cuando se agota la asignación mensual de uso gratuito, se te cobra por el número de bytes que procesa cada consulta. El rendimiento está limitado a una cuota de ranuras predefinida, que se comparte entre las consultas que se ejecutan en un proyecto.
Con la facturación de las ediciones de BigQuery, asignas ranuras a tu organización mediante reservas de escalado automático y compromisos de capacidad opcionales, pero más baratos. Las ranuras de cada edición tienen un precio diferente y ofrecen un conjunto de funciones distinto. Para obtener más información sobre las ediciones de BigQuery y las funciones asociadas, consulta el artículo Introducción a las ediciones de BigQuery.
Consulta los siguientes documentos para obtener más información sobre cómo gestionar la capacidad de computación para procesar tus consultas:
Para obtener información sobre los slots y las ventajas e inconvenientes de la facturación a demanda y la facturación basada en la capacidad, consulta el artículo Introducción a las reservas.
Para ver las distintas opciones de facturación basada en la capacidad (compromisos mensuales o anuales), consulta Compromisos de ranuras.
Para crear grupos de ranuras basadas en la capacidad, llamadas reservas de ranuras, consulta Trabajar con reservas de ranuras.
Para asignar reservas de slots a proyectos específicos, consulta el artículo Trabajar con asignaciones de reservas.
Para estimar el número adecuado de ranuras que debes asignar a tus cargas de trabajo, consulta Estimar requisitos de capacidad de ranuras.
Monitorizar recursos
Google Cloud te permite monitorizar y auditar tus recursos, incluidos los de BigQuery. En esta sección se describen lasGoogle Cloud funciones de monitorización y auditoría que se aplican a BigQuery.
Para obtener más información, consulta la introducción a la monitorización de BigQuery.
Panel de control de Cloud Monitoring
Cloud Monitoring proporciona un panel de control para monitorizar BigQuery. Usa este panel de control para ver información sobre incidentes de BigQuery, conjuntos de datos, tablas, proyectos, tiempos de consulta y utilización de ranuras.
Para obtener más información, consulta Ver el panel de control Monitoring.
Gráficos y alertas de administración
Puede usar Cloud Monitoring para crear gráficos personalizados basados en los recursos, las métricas y la agregación que especifique.
Para obtener más información, consulta Paneles de control y gráficos.
También puedes crear políticas de alertas que te notifiquen si se activa la alerta configurada. Por ejemplo, puede crear una alerta que envíe un correo a una dirección de correo especificada si el tiempo de ejecución de una consulta supera un límite determinado.
Para obtener más información, consulta el artículo Crear una alerta.
Monitorizar reservas
Puedes monitorizar el uso de tus espacios en la página Gestión de capacidad de la consola deGoogle Cloud . Puedes ver tus compromisos de capacidad y dónde se han asignado tus reservas de ranuras. También puedes usar el Estimador de slots (Vista previa) para calcular los requisitos de capacidad de tu organización en función de las métricas del historial de rendimiento.
Para obtener más información, consulta Monitorizar reservas de BigQuery.
Cuotas
Google Cloud establece límites en el uso de recursos, incluidos los de BigQuery, para asegurar un uso justo de los recursos compartidos y protegerte frente a costes descontrolados. Puedes ver el uso que haces de los recursos de BigQuery que tienen cuotas y solicitar una cuota más alta, si es necesario, mediante la consola de Google Cloud .
Para obtener más información, consulta las cuotas y los límites de BigQuery.
Registros de auditoría
Los registros de auditoría de Cloud mantienen un registro de los Google Cloud eventos, incluidos los eventos de BigQuery. Puede usar el Explorador de registros para consultar los registros sobre eventos relacionados con tareas, conjuntos de datos, transferencias y más de BigQuery. El panel de control Registros muestra información sobre los errores recientes y puede usar métricas basadas en registros para contar las entradas de registro que coinciden con un filtro concreto.
Para obtener más información, consulta la documentación de registro deGoogle Cloud .
Optimizar cargas de trabajo
Puedes optimizar tu configuración de BigQuery para controlar los costes de almacenamiento y de procesamiento de consultas.
Para obtener ayuda sobre cómo gestionar los costes de almacenamiento de BigQuery, consulta el artículo Optimizar el almacenamiento en BigQuery.
Para obtener ayuda sobre cómo gestionar los costes de procesamiento de BigQuery, consulta el artículo Controlar los costes en BigQuery.
Para obtener ayuda a la hora de optimizar las consultas de BigQuery, consulta el artículo Introducción a la optimización del rendimiento de las consultas.
Para obtener información general sobre los costes de BigQuery, consulta los precios de BigQuery y las preguntas sobre la facturación de BigQuery.
Guía de fiabilidad
En este documento se explica la fiabilidad de BigQuery, incluida información sobre la disponibilidad, la durabilidad, la coherencia de los datos, la coherencia del rendimiento y la recuperación de datos en BigQuery, así como una revisión de las consideraciones sobre el control de errores. Para obtener más información sobre la fiabilidad y la planificación ante desastres, consulta Información sobre la fiabilidad.
Solucionar problemas
Además de las funciones descritas en este documento para monitorizar y gestionar el sistema BigQuery de tu organización, tienes a tu disposición los siguientes recursos para solucionar los problemas que puedan surgir:
- Mensajes de error de BigQuery
- Preguntas sobre la facturación de BigQuery
- Solucionar problemas con cuotas
Si necesitas más ayuda, consulta el artículo Obtener asistencia.
Siguientes pasos
- Para ver una serie de vídeos sobre varios temas relacionados con la administración de BigQuery, consulta la guía de referencia de BigQuery para administradores: resumen.