Apache Spark

本页介绍了如何将 Looker 连接到 Apache Spark 3。

Looker 通过 JDBC 连接到 Spark Thrift 服务器,从而连接到 Apache Spark 3 及更高版本。

加密网络流量

最佳做法是对 Looker 应用与数据库之间的网络流量进行加密。考虑使用启用安全的数据库访问文档页面上介绍的某个选项。

创建 Looker 与数据库的连接

在 Looker 的管理部分中,选择连接,然后点击添加连接

填写连接详情。这些设置中的大多数设置对于大多数数据库方言都是通用的。如需了解相关信息,请参阅将 Looker 连接到数据库文档页面。接下来将介绍部分设置:

  • 名称:连接的名称。这是在 LookML 模型中引用连接的方式。
  • 方言:选择 Apache Spark 3+
  • 主机:Thrift 服务器主机。
  • 端口:Thrift 服务器端口(默认值为 10000)。
  • Database:将要建模的默认架构/数据库。如果未为表指定数据库,则系统会假定为该数据库。
  • 用户名:Looker 将以该用户的身份进行身份验证。
  • 密码:Looker 用户的可选密码。
  • 启用 PDT:使用此切换开关可启用永久性派生表。启用 PDT 后,“连接”窗口会显示其他 PDT 设置和 PDT 覆盖部分。
  • 临时数据库:用于存储 PDT 的临时架构/数据库。必须预先使用 CREATE SCHEMA looker_scratch; 等语句创建该对象。
  • 其他 JDBC 参数:在此处添加任何其他 Hive JDBC 参数,例如:
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL:保持未选中状态。
  • 数据库时区:存储在 Spark 中的数据的时区。通常,您可以将其留空或设置为 UTC。
  • 查询时区:在 Looker 中显示查询的数据所用的时区。

如需验证连接是否成功,请点击测试。如需了解问题排查信息,请参阅测试数据库连接文档页面。

如需保存这些设置,请点击连接

功能支持

如需让 Looker 支持某些功能,您的数据库方言也必须支持这些功能。

Apache Spark 3 及更高版本

自 Looker 25.10 起,Apache Spark 3 及更高版本支持以下功能:

功能 是否支持?
支持级别
支持
Looker (Google Cloud Core)
对称聚合
派生表
基于 SQL 的永久性派生表
永久性原生派生表
稳定视图
终止查询
基于 SQL 的透视
时区
SSL
小计
JDBC 其他参数
区分大小写
位置类型
列表类型
百分位
不同值百分位
SQL Runner“显示进程”
SQL Runner“描述表”
SQL Runner 显示索引
SQL Runner 选择 10
SQL Runner 计数
SQL Explain
OAuth 2.0 凭据
上下文注释
连接池
HLL 草图
汇总认知度
增量 PDT
毫秒
微秒
具体化视图
与前一时间段相比的指标
近似计数不同

后续步骤

创建连接后,设置身份验证选项