Apache Hive

En esta página, se incluye información para conectar Looker a Apache Hive 2.3 y versiones posteriores, y a Apache Hive 3.1.2 y versiones posteriores.

Ten en cuenta lo siguiente sobre la compatibilidad de Looker con las diferentes versiones de Apache Hive:

  • Looker admite conexiones a Apache Hive 2.3 y versiones posteriores, y a Apache Hive 3.1.2 y versiones posteriores.
  • En el caso de Apache Hive 3.1.2 y versiones posteriores, Looker solo puede integrarse por completo con las bases de datos de Apache Hive 3 en versiones posteriores a la 3.1.2. Esto se debe a un problema de análisis de consultas de las versiones 2.4.0 a 3.1.2 de Hive que generó tiempos de análisis extremadamente largos para el SQL generado por Looker.
  • Looker no admite conexiones a Apache Hive 2. Las consultas sobre conexiones a Apache Hive 2 mostrarán un error.

Encriptación del tráfico de red

Se recomienda encriptar el tráfico de red entre la aplicación de Looker y tu base de datos. Considera una de las opciones que se describen en la página de documentación Cómo habilitar el acceso seguro a la base de datos.

Introducción

Looker está diseñado para conectarse a un servidor de bases de datos a través de JDBC. En el caso de Hive, este es el servidor Thrift (HiveServer2). Consulta la documentación de Apache para obtener más información.

De forma predeterminada, este servidor escuchará en el puerto 10000.

Looker es una herramienta de consultas interactivas, por lo que espera trabajar con un motor de SQL interactivo. Si Hive se ejecuta en MapReduce (hive.execution.engine está configurado como mr), Hive devolverá los resultados de la consulta demasiado lento como para ser práctico.

Looker se probó con Hive en Tez (hive.execution.engine=tez), aunque también es posible ejecutar Looker con Hive en Spark. Se agregó compatibilidad con Spark en la versión 1.1 de Hive. (Looker admite Hive 1.2.1 y versiones posteriores).

Tablas derivadas persistentes (PDT)

Para habilitar las tablas derivadas persistentes (PDT) en Looker con una conexión de Hive, crea un esquema de trabajo para que Looker lo use. A continuación, se muestra un ejemplo de un comando que puedes usar para crear un esquema de looker_scratch:

 CREATE SCHEMA looker_scratch;

La cuenta de usuario que Looker usa para conectarse a Hive (que puede ser anónima si no se usa autenticación) debe tener las siguientes capacidades en el esquema de trabajo:

  • Crear tablas
  • Alterar tablas
  • Eliminar tablas

Prueba esto con un cliente JDBC antes de intentar crear PDT con Hive.

Colas

Si deseas que las consultas de Looker se dirijan a una cola específica, ingresa el parámetro del nombre de la cola en el campo Additional JDBC parameters de la página Connection Settings:

?tez.queue.name=the_bi_queue

Otros parámetros de Hive se pueden establecer de esta manera en el campo Parámetros adicionales de JDBC de la página Configuración de conexión.

Con los atributos del usuario, es posible que las búsquedas de diferentes usuarios o grupos de usuarios se dirijan a diferentes colas. Para ello, crea un atributo de usuario con un nombre como queue_name y, luego, en el campo Parámetros JDBC adicionales, agrega lo siguiente:

?tez.queue.name={{ _user_attributes['queue_name'] }}

También puedes usarlo para personalizar otros parámetros de hive-site.xml por usuario o por grupo.

Cómo crear la conexión de Looker a tu base de datos

Sigue estos pasos para crear la conexión de Looker a tu base de datos:

  1. En la sección Administrador de Looker, selecciona Conexiones y, luego, haz clic en Agregar conexión.
  2. Selecciona Apache Hive 2.3+ o Apache Hive 3.1.2+ en el menú desplegable Dialect.

  3. Completa los detalles de la conexión. La mayoría de los parámetros de configuración son comunes en la mayoría de los dialectos de bases de datos. Consulta la página de documentación Cómo conectar Looker a tu base de datos para obtener más información. A continuación, se describen algunos de los parámetros de configuración:

    • Nombre: Especifica el nombre de la conexión. Así es como te referirás a la conexión en los proyectos de LookML.
    • Host: Especifica el nombre de host.
    • Puerto: Especifica el puerto de la base de datos.
    • Base de datos: Especifica el nombre de la base de datos.
    • Nombre de usuario: Especifica el nombre de usuario de la base de datos.
    • Contraseña: Especifica la contraseña del usuario de la base de datos.
    • Habilitar PDT: Usa este botón de activación para habilitar las tablas derivadas persistentes. Cuando los PDT están habilitados, la ventana Connection revela parámetros de configuración adicionales de PDT y la sección PDT Overrides.
    • Base de datos temporal: Especifica el nombre del esquema de trabajo creado en la sección Tablas derivadas persistentes (PDT) de esta página de documentación.
    • Cantidad máxima de conexiones del compilador de PDT: Especifica la cantidad de compilaciones de PDT simultáneas posibles en esta conexión. Si se establece un valor demasiado alto, se podría afectar negativamente los tiempos de consulta. Para obtener más información, consulta la página de documentación Conecta Looker a tu base de datos.
    • Parámetros adicionales de JDBC: Especifica los parámetros adicionales de la cadena de JDBC.
    • Programa de mantenimiento: Especifica una expresión cron que indique cuándo debe verificar Looker los grupos de datos y las tablas derivadas persistentes. Obtén más información sobre este parámetro de configuración en la documentación de Programa de mantenimiento.
    • SSL: Marca esta opción para usar conexiones SSL.
    • Verificar SSL: Comprueba la verificación del nombre de host.
    • Máx. de conexiones por nodo: Inicialmente, este parámetro de configuración se puede dejar en el valor predeterminado. Consulta la página de documentación Cómo conectar Looker a tu base de datos para obtener más información.
    • Tiempo de espera del grupo de conexiones: Inicialmente, este parámetro de configuración se puede dejar en el valor predeterminado. Obtén más información sobre este parámetro de configuración en la sección Tiempo de espera del grupo de conexiones de la página de documentación Conecta Looker a tu base de datos.
    • Almacenamiento previo en caché del Ejecutor de SQL: Para que el Ejecutor de SQL no cargue previamente la información de la tabla y la cargue solo cuando se selecciona una tabla, desmarca esta opción. Obtén más información sobre este parámetro de configuración en la sección SQL Runner Precache de la página de documentación Cómo conectar Looker a tu base de datos.
    • Zona horaria de la base de datos: Especifica la zona horaria que se usa en la base de datos. Deja este campo en blanco si no deseas la conversión de zona horaria. Consulta la página de documentación Cómo usar la configuración de zona horaria para obtener más información.
  4. Para verificar que la conexión se haya realizado correctamente, haz clic en Probar. Consulta la página de documentación Prueba la conectividad de la base de datos para obtener información sobre la solución de problemas.

  5. Para guardar esta configuración, haz clic en Conectar.

Compatibilidad de características

Para que Looker admita algunas funciones, tu dialecto de base de datos también debe admitirlas.

Apache Hive 2.3 y versiones posteriores

A partir de Looker 25.10, Apache Hive 2.3 y versiones posteriores admiten las siguientes funciones:

Función ¿Es compatible?
Nivel de asistencia
Integración
Looker (Google Cloud Core)
No
Agregaciones simétricas
No
Tablas derivadas
Tablas derivadas persistentes basadas en SQL
Tablas derivadas persistentes nativas
Vistas estables
Cancelación de consultas
Tablas dinámicas basadas en SQL
No
Zonas horarias
SSL
Subtotales
Parámetros adicionales de JDBC
Distinción entre mayúsculas y minúsculas
Tipo de ubicación
Tipo de lista
Percentil
Percentil de valores distintos
No
Ejecutor de SQL: Mostrar procesos
No
Ejecutor de SQL: Describe la tabla
Ejecutor de SQL: Mostrar índices
Seleccionar 10 en el Ejecutor de SQL
Recuento del Ejecutor de SQL
Explicación de SQL
Credenciales de OAuth 2.0
No
Comentarios contextuales
Agrupación de conexiones
No
Esbozos de HLL
No
Conocimiento total
PDT incrementales
No
Milisegundos
Microsegundos
Vistas materializadas
No
Medidas de comparación entre períodos
No
Distinción de recuento aproximado
No

Apache Hive 3.1.2 o versiones posteriores

A partir de Looker 25.10, Apache Hive 3.1.2 y versiones posteriores admiten las siguientes funciones:

Función ¿Es compatible?
Nivel de asistencia
Admitido
Looker (Google Cloud Core)
Agregaciones simétricas
No
Tablas derivadas
Tablas derivadas persistentes basadas en SQL
Tablas derivadas persistentes nativas
Vistas estables
Cancelación de consultas
Tablas dinámicas basadas en SQL
No
Zonas horarias
SSL
Subtotales
Parámetros adicionales de JDBC
Distinción entre mayúsculas y minúsculas
Tipo de ubicación
Tipo de lista
Percentil
Percentil de valores distintos
No
Ejecutor de SQL: Mostrar procesos
No
Ejecutor de SQL: Describe la tabla
Ejecutor de SQL: Mostrar índices
No
Seleccionar 10 en el Ejecutor de SQL
Recuento del Ejecutor de SQL
Explicación de SQL
Credenciales de OAuth 2.0
No
Comentarios contextuales
Agrupación de conexiones
No
Esbozos de HLL
No
Conocimiento total
PDT incrementales
No
Milisegundos
Microsegundos
Vistas materializadas
No
Medidas de comparación entre períodos
No
Distinción de recuento aproximado
No

Próximos pasos

Después de conectar tu base de datos a Looker, configura las opciones de acceso para tus usuarios.