Apache Spark

Esta página contiene información sobre cómo conectar Looker a Apache Spark 3.

Looker se conecta a Apache Spark 3 o versiones posteriores a través de una conexión JDBC con el servidor Thrift de Spark.

Cifrar el tráfico de red

Te recomendamos que cifres el tráfico de red entre la aplicación Looker y tu base de datos. Considera una de las opciones descritas en la página de documentación Habilitar el acceso seguro a la base de datos.

Crear la conexión de Looker a tu base de datos

En la sección Administrar de Looker, selecciona Conexiones y, a continuación, haz clic en Añadir conexión.

Rellena los detalles de la conexión. La mayoría de los ajustes son comunes a la mayoría de los dialectos de bases de datos. Consulta la página de documentación Conectar Looker a tu base de datos para obtener información. A continuación, se describen algunos de los ajustes:

  • Nombre: el nombre de la conexión. Así se hará referencia a la conexión en el modelo de LookML.
  • Dialecto: selecciona Apache Spark 3+.
  • Host: el host del servidor Thrift.
  • Puerto: puerto del servidor Thrift (10000 de forma predeterminada).
  • Base de datos: el esquema o la base de datos predeterminados que se modelizarán. Si no se especifica ninguna base de datos para una tabla, se asumirá esta.
  • Nombre de usuario: el usuario con el que se autenticará Looker.
  • Contraseña: contraseña opcional del usuario de Looker.
  • Habilitar PDTs: usa este interruptor para habilitar las tablas derivadas persistentes. Cuando se habilitan los PDTs, en la ventana Conexión se muestran ajustes adicionales de PDTs y la sección Sustituciones de PDTs.
  • Base de datos temporal: un esquema o una base de datos temporal para almacenar PDTs. Debe crearse de antemano con una instrucción como CREATE SCHEMA looker_scratch;.
  • Parámetros JDBC adicionales: añade aquí cualquier parámetro JDBC de Hive adicional, como:
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL deja esta casilla sin marcar.
  • Zona horaria de la base de datos: la zona horaria de los datos almacenados en Spark. Normalmente, se puede dejar en blanco o definir como UTC.
  • Zona horaria de la consulta: la zona horaria en la que se mostrarán los datos consultados en Looker.

Para verificar que la conexión se ha realizado correctamente, haz clic en Probar. Consulta la página de documentación Probar la conectividad de la base de datos para obtener información sobre cómo solucionar problemas.

Para guardar estos ajustes, haz clic en Conectar.

Funciones admitidas

Para que Looker admita algunas funciones, el dialecto de tu base de datos también debe admitirlas.

Apache Spark 3 o versiones posteriores

Apache Spark 3+ admite las siguientes funciones a partir de Looker 25.14:

Función ¿Es compatible?
Nivel de asistencia
Compatible
Looker (servicio principal de Google Cloud)
Agregados simétricos
Tablas derivadas
Tablas derivadas de SQL persistentes
Tablas derivadas nativas persistentes
Vistas estables
Eliminación de consultas
Pivotes basados en SQL
Zonas horarias
SSL
Subtotales
Parámetros adicionales de JDBC
Distingue entre mayúsculas y minúsculas
Tipo de ubicación
Tipo de lista
Percentil
Percentil de valores distintos
No
SQL Runner Show Processes
No
SQL Runner Describe Table
SQL Runner Show Indexes
No
SQL Runner Select 10
Recuento de SQL Runner
Explicación de SQL
Credenciales de OAuth 2.0
No
Comentarios contextuales
Grupo de conexiones
No
Esquemas HLL
No
Notoriedad agregada
PDTs incrementales
No
Milisegundos
Microsegundos
Vistas materializadas
No
Métricas de comparación con el periodo anterior
No
Recuento aproximado de valores distintos
No

Pasos siguientes

Una vez que hayas creado la conexión, configura las opciones de autenticación.