Apache Spark

このページには、Looker の Apache Spark 3 への接続に関する情報が記載されています。

Looker は、Spark Thrift サーバーと JDBC 接続を介して Apache Spark 3+ に接続します。

ネットワークトラフィックの暗号化

Looker アプリケーションとデータベース間のネットワーク トラフィックを暗号化することをおすすめします。セキュアなデータベースアクセスを可能にするドキュメント ページに記載されているオプションのいずれかを検討してください。

データベースへの Looker 接続の作成

Looker の [管理者] セクションで [接続] を選択し、[新しい接続] をクリックします。

接続の詳細を入力します。設定の大部分は、ほとんどのデータベース言語に共通するものです。詳細については、Looker をデータベースに接続するのドキュメント ページをご覧ください。設定の一部を次に説明します。

  • Name: 接続の名前。これは LookML モデルで接続を参照する仕組みです。
  • 言語: [Apache Spark 3+] を選択します。
  • ホスト: Thrift サーバーのホスト。
  • ポート: Thrift サーバーのポート(デフォルトでは 10000)。
  • データベース: モデル化されるデフォルトのスキーマ / データベース。テーブルにデータベースが指定されていない場合は、これが想定されます。
  • Username: Looker の認証に使用するユーザー。
  • パスワード: Looker ユーザーのパスワード(省略可)。
  • PDT を有効にする: 有効にするには、この切り替えボタンを使用して永続的な派生テーブルを有効にします。PDT が有効になると、追加の PDT 設定と [PDT オーバーライド]が [接続] ウィンドウに表示されます。
  • 一時データベース: PDT を保存するための一時スキーマ/データベース。CREATE SCHEMA looker_scratch; などのステートメントを使用して、事前に作成しておく必要があります。
  • その他の JDBC パラメータ: Hive JDBC パラメータ(
      など)を追加します。
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: オフ。
  • データベースのタイムゾーン: Spark に保存されるデータのタイムゾーン。通常は、空白のままにするか、UTC に設定します。
  • クエリのタイムゾーン: Looker でクエリされたデータを表示するタイムゾーン。

接続が成功したことを確認するには、[テスト] をクリックします。トラブルシューティング情報については、データベース接続のテストのドキュメント ページをご覧ください。

これらの設定を保存するには、[接続] をクリックします。

機能のサポート

一部の機能については、Looker でサポートするには、データベース言語が同じ機能に対応している必要があります。

Apache Spark 3 以降

Apache Spark 3 以降では、Looker 24.18 の時点で、次の機能がサポートされています。

機能 サポート対象
サポート レベル
サポート対象
Looker(Google Cloud コア)
はい
対称集計
はい
派生テーブル
はい
永続的な SQL 派生テーブル
はい
永続的なネイティブ派生テーブル
はい
安定したビュー
はい
クエリの強制終了
はい
SQL ベースのピボット
はい
タイムゾーン
はい
SSL
はい
Subtotals
はい
JDBC の追加パラメータ
はい
大文字と小文字を区別
はい
ロケーション タイプ
はい
リストのタイプ
はい
パーセンタイル
はい
個別のパーセンタイル
いいえ
SQL Runner の表示プロセス
いいえ
SQL Runner の説明テーブル
はい
SQL Runner 表示インデックス
いいえ
SQL Runner Select 10
はい
SQL ランナーの数
はい
SQL の説明
はい
Oauth 認証情報
いいえ
コンテキスト コメント
はい
接続プーリング
いいえ
HLL スケッチ
いいえ
集計認識
はい
増分PDT
いいえ
ミリ秒
はい
マイクロ秒
はい
マテリアライズド ビュー
いいえ
Approximate Count Distinct
いいえ

次のステップ

接続を作成したら、認証のオプションを設定します。