Apache Spark

이 페이지에는 Looker를 Apache Spark 3에 연결하는 방법에 대한 정보가 포함되어 있습니다.

Looker는 Spark Thrift 서버에 대한 JDBC 연결을 통해 Apache Spark 3 이상에 연결합니다.

네트워크 트래픽 암호화

Looker 애플리케이션과 데이터베이스 사이에 네트워크 트래픽을 암호화하는 것이 가장 좋습니다. 안전한 데이터베이스 액세스 사용 설정 문서 페이지에 설명된 옵션 중 하나를 고려해 보세요.

데이터베이스에 대한 Looker 연결 만들기

Looker의 관리 섹션에서 연결을 선택한 후 연결 추가를 클릭합니다.

연결 세부정보를 작성합니다. 대다수의 설정은 대부분의 데이터베이스 언어에 공통적으로 적용됩니다. 자세한 내용은 데이터베이스에 Looker 연결 문서 페이지를 참조하세요. 다음은 일부 설정에 대한 설명입니다.

  • 이름: 연결의 이름입니다. LookML 모델에서 연결을 참조하는 방법은 다음과 같습니다.
  • 언어: Apache Spark 3+를 선택합니다.
  • 호스트: Thrift 서버 호스트입니다.
  • 포트 Thrift 서버 포트입니다(기본값: 10000).
  • 데이터베이스: 모델링할 기본 스키마/데이터베이스입니다. 테이블에 데이터베이스를 지정하지 않으면 이 값으로 간주됩니다.
  • 사용자 이름: Looker가 인증할 사용자입니다.
  • 비밀번호: Looker 사용자의 비밀번호로 선택사항입니다.
  • PDT 사용 설정: 이 전환 버튼을 사용하여 영구 파생 테이블을 사용 설정합니다. PDT가 사용 설정되면 연결 창에 추가 PDT 설정과 PDT 재정의 섹션이 표시됩니다.
  • 임시 데이터베이스: PDT를 저장하기 위한 임시 스키마/데이터베이스입니다. CREATE SCHEMA looker_scratch;와 같은 문을 사용하여 미리 만들어야 합니다.
  • 추가 JDBC 매개변수: 다음과 같이 Hive JDBC 매개변수를 추가합니다.
    • ;spark.sql.inMemoryColumnarStorage.compressed=true
    • ;auth=noSasl
  • SSL: 선택 해제 상태로 둡니다.
  • 데이터베이스 시간대: Spark에 저장된 데이터의 시간대입니다. 일반적으로 비워두거나 UTC로 설정할 수 있습니다.
  • 쿼리 시간대: Looker에서 쿼리된 데이터를 표시할 시간대입니다.

연결이 성공했는지 확인하려면 테스트를 클릭합니다. 문제 해결 정보는 데이터베이스 연결 테스트 문서 페이지를 참조하세요.

이러한 설정을 저장하려면 연결을 클릭합니다.

기능 지원

Looker가 특정 기능을 지원하려면 데이터베이스 언어도 해당 기능을 지원해야 합니다.

Apache Spark 3 이상

Apache Spark 3 이상에서는 Looker 24.20부터 다음 기능을 지원합니다.

특성 지원 여부
지원 수준
지원됨
Looker(Google Cloud 핵심 서비스)
대칭 집계
파생 테이블
영구 SQL 파생 테이블
영구 기본 파생 테이블
안정적인 뷰
쿼리 종료
SQL 기반 피벗
시간대
SSL
소계
JDBC 추가 파라미터
대소문자 구분
위치 유형
목록 유형
백분위수
고유 백분위수
아니요
SQL Runner 표시 프로세스
아니요
SQL Runner 설명 테이블
SQL Runner 표시 색인
아니요
SQL Runner 선택 10
SQL Runner 카운트
SQL 설명
OAuth 사용자 인증 정보
아니요
컨텍스트 주석
연결 풀링
아니요
HLL 스케치
아니요
집계 인식
증분 PDT
아니요
밀리초
마이크로초
구체화된 뷰
아니요
대략적인 고유값
아니요

다음 단계

연결을 만든 후 인증 옵션을 설정합니다.