本页面介绍了如何将 Looker 连接到 Apache Hive 2.3 及更高版本和 Apache Hive 3.1.2 及更高版本。
请注意以下有关 Looker 对不同版本的 Apache Hive 的支持:
- Looker 支持连接到 Apache Hive 2.3 及更高版本和 Apache Hive 3.1.2 及更高版本。
- 对于 Apache Hive 3.1.2 及更高版本,Looker 只能与 3.1.2 之后的版本完全集成。这是因为 Hive 版本 2.4.0 - 3.1.2 存在查询解析问题,导致 Looker 生成的 SQL 解析时间过长。
- Looker 不支持连接到 Apache Hive 2。对 Apache Hive 2 的连接执行的查询会返回错误。
加密网络流量
最佳做法是对 Looker 应用与数据库之间的网络流量进行加密。考虑使用启用安全的数据库访问文档页面上介绍的某个选项。
简介
Looker 的架构旨在通过 JDBC 连接到数据库服务器。对于 Hive,这是 Thrift 服务器 (HiveServer2)。如需了解详情,请参阅 Apache 文档。
默认情况下,此服务器将侦听端口 10000。
Looker 是一款交互式查询工具,因此需要与交互式 SQL 引擎搭配使用。如果 Hive 在 MapReduce 上运行(即 hive.execution.engine
设置为 mr
),则 Hive 返回查询结果的速度太慢,无法实际使用。
Looker 已通过 Hive on Tez (hive.execution.engine=tez
) 测试,但也可以针对 Hive on Spark 运行 Looker。Hive 版本 1.1 中添加了 Spark 支持。(Looker 支持 Hive 1.2.1 及更高版本。)
永久性派生表 (PDT)
如需在 Looker 中使用 Hive 连接启用持久性派生表 (PDT),请为 Looker 创建一个临时架构。以下是可用于创建 looker_scratch
架构的命令示例:
CREATE SCHEMA looker_scratch;
Looker 用于连接到 Hive 的用户账号(如果未使用身份验证,则可以是匿名账号)必须在临时架构中具备以下能力:
- 创建表格
- 更改表
- 舍弃表
在尝试使用 Hive 创建 PDT 之前,请先使用 JDBC 客户端对此进行测试。
队列
如果您希望 Looker 中的查询进入特定队列,请在连接设置页面上的其他 JDBC 参数字段中输入队列名称参数:
?tez.queue.name=the_bi_queue
您可以在连接设置页面上的其他 JDBC 参数字段中以这种方式设置其他 Hive 参数。
借助用户属性,不同用户或不同用户群组的查询可以进入不同的队列。为此,请创建一个名为 queue_name
的用户属性;然后,在其他 JDBC 参数字段中添加以下内容:
?tez.queue.name={{ _user_attributes['queue_name'] }}
您还可以使用此功能按用户或群组自定义其他 hive-site.xml
参数。
创建 Looker 与数据库的连接
请按照以下步骤创建从 Looker 到数据库的连接:
- 在 Looker 的管理部分中,选择连接,然后点击添加连接。
从方言下拉菜单中选择 Apache Hive 2.3+ 或 Apache Hive 3.1.2+。
填写连接详情。这些设置中的大多数设置对于大多数数据库方言都是通用的。如需了解相关信息,请参阅将 Looker 连接到数据库文档页面。接下来将介绍部分设置:
- 名称:指定连接的名称。这是您在 LookML 项目中引用连接的方式。
- 主机:指定主机名。
- 端口:指定数据库端口。
- 数据库:指定数据库名称。
- 用户名:指定数据库用户名。
- 密码:指定数据库用户密码。
- 启用 PDT:使用此切换开关可启用永久性派生表。启用 PDT 后,“连接”窗口会显示其他 PDT 设置和 PDT 覆盖部分。
- 临时数据库:指定此文档页面的持久性派生表 (PDT) 部分中创建的临时架构的名称。
- PDT 构建器连接数上限:指定此连接上可能存在的并发 PDT 构建数量。将此值设置得过高可能会对查询时间产生负面影响。如需了解详情,请参阅将 Looker 连接到数据库文档页面。
- 其他 JDBC 参数:指定任何其他 JDBC 字符串参数。
- 维护时间表:指定一个
cron
表达式,用于指示 Looker 应何时检查数据组和永久性派生表。如需详细了解此设置,请参阅维护时间表文档。 - SSL:选中此复选框可使用 SSL 连接。
- 验证 SSL:检查主机名验证。
- 每个节点的最大连接数:此设置最初可以保留默认值。如需了解详情,请参阅将 Looker 连接到数据库文档页面。
- 连接池超时时间:此设置最初可以保留默认值。如需详细了解此设置,请参阅将 Looker 连接到数据库文档页面中的连接池超时部分。
- SQL Runner 预缓存:如需使 SQL Runner 不预加载表信息,而仅在选择表时加载表信息,请取消选中此选项。如需详细了解此设置,请参阅将 Looker 连接到数据库文档页面中的 SQL Runner 预缓存部分。
- 数据库时区:指定数据库中使用的时区。如果您不想进行时区转换,请将此字段留空。如需了解详情,请参阅使用时区设置文档页面。
如需验证连接是否成功,请点击测试。如需了解问题排查信息,请参阅测试数据库连接文档页面。
如需保存这些设置,请点击连接。
功能支持
如需让 Looker 支持某些功能,您的数据库方言也必须支持这些功能。
Apache Hive 2.3 及更高版本
自 Looker 25.10 起,Apache Hive 2.3 及更高版本支持以下功能:
功能 | 是否支持? |
---|---|
支持级别 | 集成 |
Looker (Google Cloud Core) | 否 |
对称聚合 | 否 |
派生表 | 是 |
基于 SQL 的永久性派生表 | 是 |
永久性原生派生表 | 是 |
稳定视图 | 是 |
终止查询 | 是 |
基于 SQL 的透视 | 否 |
时区 | 是 |
SSL | 是 |
小计 | 是 |
JDBC 其他参数 | 是 |
区分大小写 | 是 |
位置类型 | 是 |
列表类型 | 是 |
百分位 | 是 |
不同值百分位 | 否 |
SQL Runner“显示进程” | 否 |
SQL Runner“描述表” | 是 |
SQL Runner 显示索引 | 是 |
SQL Runner 选择 10 | 是 |
SQL Runner 计数 | 是 |
SQL Explain | 是 |
OAuth 2.0 凭据 | 否 |
上下文注释 | 是 |
连接池 | 否 |
HLL 草图 | 否 |
汇总认知度 | 是 |
增量 PDT | 否 |
毫秒 | 是 |
微秒 | 是 |
具体化视图 | 否 |
与前一时间段相比的指标 | 否 |
近似计数不同 | 否 |
Apache Hive 3.1.2 及更高版本
自 Looker 25.10 起,Apache Hive 3.1.2 及更高版本支持以下功能:
功能 | 是否支持? |
---|---|
支持级别 | 支持 |
Looker (Google Cloud Core) | 是 |
对称聚合 | 否 |
派生表 | 是 |
基于 SQL 的永久性派生表 | 是 |
永久性原生派生表 | 是 |
稳定视图 | 是 |
终止查询 | 是 |
基于 SQL 的透视 | 否 |
时区 | 是 |
SSL | 是 |
小计 | 是 |
JDBC 其他参数 | 是 |
区分大小写 | 是 |
位置类型 | 是 |
列表类型 | 是 |
百分位 | 是 |
不同值百分位 | 否 |
SQL Runner“显示进程” | 否 |
SQL Runner“描述表” | 是 |
SQL Runner 显示索引 | 否 |
SQL Runner 选择 10 | 是 |
SQL Runner 计数 | 是 |
SQL Explain | 是 |
OAuth 2.0 凭据 | 否 |
上下文注释 | 是 |
连接池 | 否 |
HLL 草图 | 否 |
汇总认知度 | 是 |
增量 PDT | 否 |
毫秒 | 是 |
微秒 | 是 |
具体化视图 | 否 |
与前一时间段相比的指标 | 否 |
近似计数不同 | 否 |
后续步骤
将数据库连接到 Looker 后,请为用户配置登录选项。