Dataproc 선택적 Trino 구성요소

선택적 구성요소 기능을 사용하여 Dataproc 클러스터를 만들 때 Trino와 같은 추가 구성요소를 설치할 수 있습니다. 이 페이지에서는 Dataproc 클러스터에 Trino 구성요소를 선택적으로 설치하는 방법을 설명합니다.

Trino는 오픈소스 기반의 분산 SQL 쿼리 엔진입니다. Trino 서버 및 웹 UI는 기본적으로 클러스터의 첫 번째 마스터 노드에 있는 포트 8060 (또는 Kerberos가 사용 설정된 경우 포트 7778)에서 사용할 수 있습니다.

기본적으로 Dataproc의 Trino는 Hive, BigQuery, Memory, TPCH, TPCDS 커넥터에서 작동하도록 구성됩니다.

Trino 구성요소로 클러스터를 만든 후 쿼리를 실행할 수 있습니다.

구성요소 설치

Dataproc 클러스터를 만들 때 구성요소를 설치합니다.

각 Dataproc 이미지 출시에 포함된 구성요소 버전은 지원되는 Dataproc 버전을 참조하세요.

콘솔

  1. Google Cloud 콘솔에서 Dataproc 클러스터 만들기 페이지로 이동합니다.

    클러스터 만들기로 이동

    클러스터 설정 패널이 선택되었습니다.

  2. 구성요소 섹션에서 다음을 수행합니다.
    • 선택적 구성요소 아래에서 클러스터에 설치할 Trino 및 기타 선택적인 구성요소를 선택합니다.
    • 구성요소 게이트웨이 아래에서 구성요소 게이트웨이 사용 설정을 선택합니다(구성요소 게이트웨이 URL 보기 및 액세스 참조).

gcloud CLI

Trino 구성요소가 포함된 Dataproc 클러스터를 만들려면 gcloud dataproc clusters create 명령어를 --optional-components 플래그와 함께 사용합니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --REGION=region \
    --enable-component-gateway \
    ... other flags
    
참고:
  • CLUSTER_NAME: 클러스터 이름입니다.
  • REGION: 클러스터가 위치할 Compute Engine 리전입니다.

속성 구성

gcloud dataproc clusters create 명령어에 --properties 플래그를 추가하여 trino, trino-jvm, trino-catalog 구성 속성을 설정합니다.

  • 애플리케이션 속성: trino: 프리픽스가 있는 클러스터 속성을 사용하여 Trino 애플리케이션 속성(예: --properties="trino:join-distribution-type=AUTOMATIC")을 구성합니다.
  • JVM 구성 속성: trino-jvm: 프리픽스가 있는 클러스터 속성을 사용하여 Trino 조정자 및 작업자 자바 프로세스(예: --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError")의 JVM 속성을 구성합니다.
  • 새 카탈로그 만들기 및 카탈로그 속성 추가: trino-catalog:catalog-name.property-name를 사용하여 Trino 카탈로그를 구성합니다.

    예: 다음 '속성' 플래그를 'gcloud dataproc clusters create' 명령어와 함께 사용하여 'prodhive' Hive 카탈로그가 있는 Trino 클러스터를 만들 수 있습니다. prodhive.properties 파일이 /usr/lib/trino/etc/catalog/ 아래에 생성되어 Prodive 카탈로그를 사용 설정합니다.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Trino 구성요소는 SoftwareConfig.Componentclusters.create 요청에 사용하여 Dataproc API를 통해 지정할 수 있습니다.