Apache Spark

本页介绍了如何将 Looker 连接到 Apache Spark 3。

Looker 通过 JDBC 连接到 Spark Thrift 服务器，从而连接到 Apache Spark 3 及更高版本。

加密网络流量

最佳做法是对 Looker 应用与数据库之间的网络流量进行加密。不妨考虑启用安全的数据库访问文档页面上介绍的选项之一。

在 Looker 的管理部分中，选择连接，然后点击添加连接。

填写连接详情。这些设置中的大多数设置对于大多数数据库方言都是通用的。如需了解相关信息，请参阅将 Looker 连接到数据库文档页面。接下来将介绍部分设置：

名称：连接的名称。这是在 LookML 模型中引用连接的方式。
方言：选择 Apache Spark 3+。
主机：Thrift 服务器主机。
端口：Thrift 服务器端口（默认值为 10000）。
数据库：将建模的默认架构/数据库。如果未为表指定数据库，则系统会假定为该数据库。
用户名：Looker 将以该用户的身份进行身份验证。
密码：Looker 用户的可选密码。
启用 PDT：使用此切换开关可启用永久性派生表。启用 PDT 后，连接窗口会显示其他 PDT 设置和 PDT 覆盖部分。
临时数据库：用于存储 PDT 的临时架构/数据库。必须预先使用 CREATE SCHEMA looker_scratch; 等语句创建该表。
其他 JDBC 参数：在此处添加任何其他 Hive JDBC 参数，例如：
- ;spark.sql.inMemoryColumnarStorage.compressed=true
- ;auth=noSasl
SSL：保持未选中状态。
数据库时区：存储在 Spark 中的数据的时区。通常，您可以将其留空或设置为 UTC。
查询时区：在 Looker 中显示查询的数据所用的时区。

如需验证连接是否成功，请点击测试。如需了解问题排查信息，请参阅测试数据库连接文档页面。

如需保存这些设置，请点击连接。

如需让 Looker 支持某些功能，您的数据库方言也必须支持这些功能。

自 Looker 25.16 起，Apache Spark 3 及更高版本支持以下功能：