Información general sobre las analíticas de BigQuery
En este documento se describe cómo procesa BigQuery las consultas y se ofrece una descripción general de varias funciones que son útiles para comprender y analizar los datos.
BigQuery está optimizado para ejecutar consultas analíticas en conjuntos de datos de gran tamaño, incluidos terabytes de datos en segundos y petabytes en minutos. Conocer sus funciones y cómo procesa las consultas puede ayudarte a maximizar tus inversiones en análisis de datos.
Para hacer un recorrido por las funciones de analíticas de datos de BigQuery directamente en la Google Cloud consola, haz clic en Hacer el recorrido.
Flujos de trabajo analíticos
BigQuery admite varios flujos de trabajo de análisis de datos:
Análisis ad hoc. BigQuery usa GoogleSQL, el dialecto SQL de BigQuery, para admitir análisis ad hoc. Puedes ejecutar consultas en la consola de Google Cloud o a través de herramientas de terceros que se integran con BigQuery.
Análisis geoespacial. BigQuery usa tipos de datos geográficos y funciones geográficas de GoogleSQL para analizar y visualizar datos geoespaciales. Para obtener información sobre estos tipos de datos y funciones, consulta el artículo Introducción a la analítica geoespacial.
Busca datos. Puedes indexar tus datos para realizar búsquedas flexibles y optimizadas en texto sin estructurar o datos JSON semiestructurados.
Busca recursos Google Cloud . Usa la búsqueda en lenguaje natural (vista previa) para descubrir Google Cloud recursos en BigQuery.
Aprendizaje automático. BigQuery ML usa consultas de GoogleSQL para permitirte crear y ejecutar modelos de aprendizaje automático en BigQuery.
Inteligencia empresarial. BigQuery BI Engine es un servicio de análisis en memoria de alta velocidad que te permite crear paneles de control e informes completos e interactivos sin influir en el rendimiento, la escalabilidad, la seguridad ni la actualización de los datos.
Asistencia de IA. Puedes usar Gemini en BigQuery para preparar y explorar tus datos, generar consultas SQL y código Python, y visualizar tus resultados.
Exploración de datos
BigQuery puede ayudarte a entender tus datos antes de empezar a escribir consultas de SQL. Usa las siguientes funciones si quieres encontrar datos, no conoces bien tus datos, no sabes qué preguntas hacer o necesitas ayuda para escribir consultas de SQL:
Dataplex Universal Catalog. EncuentraGoogle Cloud recursos en BigQuery, como conjuntos de datos y tablas.
Explorador de tablas: Explora visualmente el intervalo y la frecuencia de los valores de tu tabla y crea consultas de forma interactiva.
Estadísticas de datos. Genera preguntas en lenguaje natural sobre tus datos, junto con las consultas de SQL para responderlas.
Análisis de perfil de datos. Consulta las características estadísticas de tus datos, como los valores medio, único, máximo y mínimo.
Lienzo de datos. Consulta tus datos con lenguaje natural, visualiza los resultados con gráficos y haz preguntas complementarias.
Consultas
La forma principal de analizar datos en BigQuery es ejecutar una consulta de SQL. El dialecto GoogleSQL es compatible con SQL:2011 e incluye extensiones que admiten análisis geoespaciales y aprendizaje automático.
Fuentes de datos
BigQuery te permite consultar los siguientes tipos de fuentes de datos:
Datos almacenados en BigQuery. Puedes cargar datos en BigQuery, modificar datos con instrucciones del lenguaje de manipulación de datos (DML) o escribir los resultados de una consulta en una tabla. Puedes consultar datos históricos de un momento dado del periodo de viaje en el tiempo.
Puedes consultar datos almacenados en ubicaciones de una sola región o multirregionales, pero no puedes ejecutar una consulta en varias ubicaciones, aunque una sea una ubicación de una sola región y la otra sea la ubicación multirregional que contiene esa ubicación de una sola región. Para obtener más información, consulta Ubicaciones, reservas y trabajos.
Datos externos: Puedes consultar varias fuentes de datos externas, como Cloud Storage, o servicios de bases de datos, como Spanner o Cloud SQL. Para obtener información sobre cómo configurar conexiones a fuentes externas, consulta la introducción a fuentes de datos externas.
Datos multinube. Puedes consultar datos almacenados en otras nubes públicas, como AWS o Azure. Para obtener información sobre cómo configurar conexiones con Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage, consulta la introducción a BigQuery Omni.
Conjuntos de datos públicos. Puedes analizar cualquiera de los conjuntos de datos disponibles en el mercado de conjuntos de datos públicos.
Compartir datos de BigQuery (antes Analytics Hub). Puedes publicar y suscribirte a conjuntos de datos de BigQuery y temas de Pub/Sub para compartir datos entre organizaciones. Para obtener más información, consulta la introducción al uso compartido de BigQuery.
Tipos de consultas
Puedes consultar datos de BigQuery con uno de los siguientes tipos de trabajo de consulta:
Trabajos de consulta interactiva. De forma predeterminada, BigQuery ejecuta las consultas como tareas de consulta interactivas, que están diseñadas para empezar a ejecutarse lo antes posible.
Consultas por lotes. Las consultas por lotes tienen una prioridad inferior a las consultas interactivas. Cuando un proyecto o una reserva utiliza todos los recursos de computación disponibles, es más probable que las consultas por lotes se pongan en cola y permanezcan en ella. Una vez que se inicia una consulta por lotes, se ejecuta igual que una consulta interactiva. Para obtener más información, consulta el artículo sobre colas de consultas.
Trabajos de consulta continua. Con estas tareas, la consulta se ejecuta de forma continua, lo que te permite analizar los datos entrantes en BigQuery en tiempo real y, a continuación, escribir los resultados en una tabla de BigQuery o exportarlos a Bigtable o Pub/Sub. Puedes usar esta función para llevar a cabo tareas urgentes, como crear estadísticas y actuar en consecuencia de inmediato, aplicar inferencias de aprendizaje automático (ML) en tiempo real y crear flujos de datos basados en eventos.
Puedes ejecutar trabajos de consulta con los siguientes métodos:
- Redacta y ejecuta una consulta en la Google Cloud consola.
- Ejecuta el comando
bq query
en la herramienta de línea de comandos bq. - Llama mediante programación al método
jobs.query
ojobs.insert
en la API REST de BigQuery. - Usa las bibliotecas de cliente de BigQuery.
Consultas con varias instrucciones
Puedes ejecutar varias instrucciones en una secuencia, con un estado compartido, mediante consultas con varias instrucciones. Las consultas de varias instrucciones se suelen usar en procedimientos almacenados y admiten instrucciones de lenguaje de procedimiento, que te permiten definir variables e implementar el flujo de control.
Consultas guardadas y compartidas
BigQuery te permite guardar consultas y compartirlas con otros usuarios.
Cuando guardas una consulta, puede ser privada (solo tú puedes verla), compartida a nivel de proyecto (visible para principales específicos) o pública (cualquier usuario puede verla). Para obtener más información, consulta Trabajar con consultas guardadas.
Cómo procesa BigQuery las consultas
Cuando BigQuery ejecuta una consulta, se llevan a cabo varios procesos:
Árbol de ejecución. Cuando ejecutas una consulta, BigQuery genera un árbol de ejecución que desglosa la consulta en fases. Estas fases contienen pasos que se pueden ejecutar en paralelo.
Nivel de aleatorización. Las fases se comunican entre sí mediante una capa de aleatorización rápida y distribuida que almacena los datos intermedios producidos por los trabajadores de una fase. Cuando es posible, el nivel de aleatorización aprovecha tecnologías como una red de petabits y la RAM para mover datos rápidamente a los nodos de trabajo.
Plan de consultas: Cuando BigQuery tiene toda la información que necesita para ejecutar una consulta, genera un plan de consulta. Puedes ver el plan de consulta en la consola Google Cloud y usarlo para solucionar problemas o optimizar el rendimiento de las consultas.
Gráfico de ejecución de consultas. Puedes consultar la información del plan de consulta en formato gráfico para cualquier consulta, ya esté en curso o completada, y ver estadísticas de rendimiento que te ayuden a optimizar tus consultas.
Monitorización de consultas y planificación dinámica. Además de los trabajadores que realizan el trabajo del propio plan de consulta, otros trabajadores monitorizan y dirigen el progreso general del trabajo en todo el sistema. A medida que avanza la consulta, BigQuery puede ajustar dinámicamente el plan de consulta para adaptarse a los resultados de las distintas fases.
Resultados de la consulta. Cuando se completa una consulta, BigQuery escribe los resultados en el almacenamiento persistente y los devuelve al usuario. Este diseño permite que BigQuery proporcione resultados almacenados en caché la próxima vez que se ejecute la consulta.
Simultaneidad y rendimiento de las consultas
El rendimiento de las consultas que se ejecutan repetidamente en los mismos datos puede variar debido a la naturaleza compartida del entorno de BigQuery, al uso de resultados de consultas almacenados en caché o a que BigQuery ajusta dinámicamente el plan de consulta mientras se ejecuta la consulta. En un sistema con mucha actividad en el que se ejecutan muchas consultas simultáneamente, BigQuery usa varios procesos para suavizar las variaciones en el rendimiento de las consultas:
BigQuery ejecuta muchas consultas en paralelo y puede poner en cola las consultas para que se ejecuten cuando haya recursos disponibles.
A medida que las consultas empiezan y terminan, BigQuery redistribuye los recursos de forma equitativa entre las consultas nuevas y las que están en curso. De esta forma, el rendimiento de las consultas no depende del orden en el que se envían, sino del número de consultas que se ejecutan en un momento dado.
Optimización de consultas
Cuando ejecutas una consulta, puedes ver el plan de consulta en la consola Google Cloud . También puedes solicitar detalles de la ejecución mediante las vistas INFORMATION_SCHEMA.JOBS*
o el método de la API REST jobs.get
.
El plan de consultas incluye detalles sobre las fases y los pasos de la consulta. Estos detalles pueden ayudarte a identificar formas de mejorar el rendimiento de las consultas. Por ejemplo, si observa una fase que escribe mucho más que otras, puede que tenga que filtrar antes en la consulta.
Para obtener más información sobre el plan de consulta y la optimización de consultas, consulta los siguientes recursos:
- Para obtener más información sobre el plan de consultas y ver ejemplos de cómo puede ayudarte la información del plan a mejorar el rendimiento de las consultas, consulta Plan de consultas y cronología.
- Para obtener más información sobre la optimización de consultas en general, consulta el artículo Introducción a la optimización del rendimiento de las consultas.
Monitorización de consultas
La monitorización y el registro son fundamentales para ejecutar aplicaciones fiables en la nube. Las cargas de trabajo de BigQuery no son una excepción, sobre todo si tu carga de trabajo tiene volúmenes elevados o es esencial. BigQuery ofrece varias métricas, registros y vistas de metadatos para ayudarte a monitorizar tu uso de BigQuery.
Para obtener más información, consulta los siguientes recursos:
- Para obtener información sobre las opciones de monitorización de BigQuery, consulta el artículo Introducción a la monitorización de BigQuery.
- Para obtener información sobre los registros de auditoría y cómo analizar el comportamiento de las consultas, consulta Registros de auditoría de BigQuery.
Precio de las consultas
BigQuery ofrece dos modelos de precios para las analíticas:
- Precios bajo demanda Pagas por los datos que analizan tus consultas. Tienes una capacidad de procesamiento de consultas fija para cada proyecto y el coste se basa en el número de bytes procesados.
- Precios basados en la capacidad: Adquieres una capacidad de procesamiento de consultas específica.
Para obtener información sobre los dos modelos de precios y sobre cómo hacer reservas con precios basados en la capacidad, consulta el artículo Introducción a las reservas.
Cuotas y controles de costes de las consultas
BigQuery aplica cuotas a nivel de proyecto para ejecutar consultas. Para obtener información sobre las cuotas de consultas, consulta Cuotas y límites.
Para controlar los costes de las consultas, BigQuery ofrece varias opciones, como cuotas personalizadas y alertas de facturación. Para obtener más información, consulta el artículo Crear controles de costes personalizados.
Funciones de analíticas de datos
BigQuery admite analíticas descriptivas y predictivas, y te ayuda a explorar tus datos con herramientas basadas en IA, SQL, aprendizaje automático, cuadernos y otras integraciones de terceros.
BigQuery Studio
BigQuery Studio te ayuda a descubrir, analizar y ejecutar inferencias sobre los datos de BigQuery con las siguientes funciones:
- Un editor de SQL sólido que ofrece finalización y generación de código, validación de consultas y estimación de bytes procesados.
- Cuadernos de Python insertados creados con Colab Enterprise. Los cuadernos proporcionan tiempos de ejecución de desarrollo de Python con un solo clic y compatibilidad integrada con BigQuery DataFrames.
- Un editor de PySpark que te permite crear procedimientos de Python almacenados para Apache Spark.
- Gestión de recursos e historial de versiones de recursos de código, como cuadernos y consultas guardadas, basados en Dataform.
- Desarrollo de código asistido en el editor de SQL y en los cuadernos, basado en la IA generativa de Gemini (vista previa).
- Funciones de Dataplex Universal Catalog para el descubrimiento de datos, la elaboración de perfiles de datos y los análisis de calidad de los datos.
- Posibilidad de ver el historial de trabajos por usuario o por proyecto.
- Posibilidad de analizar los resultados de las consultas guardadas conectándose a otras herramientas, como Looker y Hojas de cálculo de Google, y de exportar los resultados de las consultas guardadas para usarlos en otras aplicaciones.
BigQuery ML
BigQuery ML te permite usar SQL en BigQuery para realizar aprendizaje automático y analíticas predictivas. Para obtener más información, consulta la introducción a BigQuery ML.
Integración de herramientas de analíticas
Además de ejecutar consultas en BigQuery, puede analizar sus datos con varias herramientas de analíticas e inteligencia empresarial que se integran con BigQuery, como las siguientes:
Looker. Looker es una plataforma para empresas especializada en inteligencia empresarial, aplicaciones de datos y analíticas insertadas. La plataforma de Looker funciona con muchos almacenes de datos, incluido BigQuery. Para obtener información sobre cómo conectar Looker a BigQuery, consulta Usar Looker.
Looker Studio Después de ejecutar una consulta, puede iniciar Looker Studio directamente desde BigQuery en laGoogle Cloud consola. Después, en Looker Studio, puedes crear visualizaciones y explorar los datos que devuelve la consulta. Para obtener información sobre Looker Studio, consulta el resumen de Looker Studio.
Hojas vinculadas. También puedes iniciar Hojas conectadas directamente desde BigQuery en la consola. Hojas vinculadas ejecuta consultas de BigQuery en tu nombre, ya sea cuando lo solicitas o según una programación definida. Los resultados de esas consultas se guardan en la hoja de cálculo para analizarlos y compartirlos. Para obtener información sobre Hojas vinculadas, consulta el artículo Usar Hojas vinculadas.
Tableau. Puedes conectarte a un conjunto de datos desde Tableau. Usa BigQuery para crear gráficos, paneles de control y otras visualizaciones de datos.
Integración de herramientas de terceros
Hay varias herramientas de analíticas de terceros que funcionan con BigQuery. Por ejemplo, puedes conectar Tableau a datos de BigQuery y usar sus herramientas de visualización para analizar y compartir tus análisis. Para obtener más información sobre los aspectos que debe tener en cuenta al usar herramientas de terceros, consulte el artículo Integración de herramientas de terceros.
Hay controladores ODBC y JDBC disponibles que se pueden usar para integrar tu aplicación con BigQuery. El objetivo de estos controladores es ayudar a los usuarios a aprovechar el potencial de BigQuery con las herramientas y la infraestructura que ya tienen. Para obtener información sobre la versión más reciente y los problemas conocidos, consulta Controladores ODBC y JDBC para BigQuery.
Las bibliotecas de pandas, como pandas-gbq
, te permiten interactuar con los datos de BigQuery en cuadernos de Jupyter. Para obtener información sobre esta biblioteca y cómo se compara con el uso de la biblioteca de cliente de Python de BigQuery, consulta la comparación con pandas-gbq
.
También puedes usar BigQuery con otros cuadernos y herramientas de análisis. Para obtener más información, consulta Herramientas de análisis programático.
Para ver una lista completa de los partners de analíticas y tecnología de BigQuery, consulta la lista Partners (Partners) de la página del producto BigQuery.
Siguientes pasos
- Para ver una introducción y una descripción general de las instrucciones SQL admitidas, consulta Introducción a SQL en BigQuery.
- Para obtener información sobre la sintaxis de GoogleSQL que se usa para consultar datos en BigQuery, consulte Sintaxis de las consultas en GoogleSQL.
- Consulta cómo ejecutar una consulta en BigQuery.
- Más información sobre cómo optimizar el rendimiento de las consultas
- Consulta cómo empezar a usar los cuadernos.
- Consulta cómo programar una consulta periódica.