Apache Spark

本頁說明如何將 Looker 連線至 Apache Spark 3。

Looker 會透過 JDBC 連線至 Spark Thrift 伺服器,連線至 Apache Spark 3 以上版本。

加密網路流量

最佳做法是加密 Looker 應用程式與資料庫之間的網路流量。請考慮使用「啟用安全資料庫存取權」說明文件頁面所述的其中一個選項。

建立 Looker 資料庫連線

在 Looker 的「管理」部分中,選取「連線」,然後按一下「新增連線」

填寫連線詳細資料。在這些設定中,有絕大部分都是多數資料庫方言的常用設定。詳情請參閱「將 Looker 連線至資料庫」說明文件頁面。以下說明部分設定:

  • 名稱:連線名稱。這是 LookML 模型中參照連線的方式。
  • 方言:選取「Apache Spark 3 以上版本」
  • 主機:Thrift 伺服器主機。
  • 通訊埠:Thrift 伺服器通訊埠 (預設為 10000)。
  • 資料庫:要模擬的預設結構定義/資料庫。如果未指定資料表所屬的資料庫,系統會假設資料表屬於這個資料庫。
  • 使用者名稱:Looker 將驗證的使用者。
  • 「Password」(密碼):Looker 使用者的選填密碼。
  • 啟用 PDT:使用這個切換按鈕啟用永久衍生資料表。啟用 PDT 後,「連線」視窗會顯示其他 PDT 設定和「PDT 覆寫」部分。
  • 暫存資料庫:用於儲存 PDT 的暫時結構定義/資料庫。必須事先建立,並使用 CREATE SCHEMA looker_scratch; 等陳述式。
  • 其他 JDBC 參數:在此新增任何其他 Hive JDBC 參數,例如:
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL:請勿勾選這個選項。
  • 資料庫時區:儲存在 Spark 中的資料時區。通常可以留空或設為世界標準時間。
  • 查詢時區:在 Looker 中顯示查詢資料的時區。

如要確認連線是否成功,請按一下「測試」。如需疑難排解資訊,請參閱「測試資料庫連線」說明文件頁面。

如要儲存這些設定,請按一下「連線」

功能支援

如要讓 Looker 支援某些功能,資料庫方言也必須支援這些功能。

Apache Spark 3 以上版本

自 Looker 25.10 起,Apache Spark 3 以上版本支援下列功能:

功能 是否支援?
支援級別
支援
Looker (Google Cloud Core)
對稱式匯總函式
衍生資料表
永久 SQL 衍生資料表
永久原生衍生資料表
穩定版檢視畫面
終止查詢
以 SQL 為基礎的樞紐
時區
SSL
小計
JDBC 其他參數
區分大小寫
位置類型
名單類型
百分位數
不重複值的百分位數
SQL Runner 顯示程序
SQL Runner 說明資料表
SQL Runner 顯示索引
SQL Runner 選取 10
SQL Runner 計數
SQL 說明
OAuth 2.0 憑證
背景資訊註解
連線集區
HLL 草圖
匯總知名度
增量 PDT
毫秒
微秒
具體化檢視表
與前一段時期相比的指標
不重複值的概略計數

後續步驟

建立連線後,請設定驗證選項