當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Trino 等其他元件。本頁面說明如何選擇在 Dataproc 叢集中安裝 Trino 元件。
Trino 是開放原始碼分散式 SQL 查詢引擎。根據預設,Trino 伺服器和網頁版 UI 位於叢集第一個主要節點的 8060
通訊埠上 (若 Kerberos 已啟用,則為通訊埠 7778
)。
根據預設,Dataproc 上的 Trino 會設定為搭配 Hive
、BigQuery
、Memory
、TPCH
和 TPCDS
連接器運作。
使用 Trino 元件建立叢集後,您可以執行查詢:
- 使用
gcloud dataproc jobs submit trino
指令,從本機終端機取得記錄 - 使用
trino
CLI (指令列介面) 從叢集第一個主要節點的終端機視窗,請參閱「使用 Dataproc 搭配 Trino」。
安裝元件
請在建立 Dataproc 叢集時安裝元件。
請參閱支援的 Dataproc 版本,瞭解每個 Dataproc 映像檔版本中包含的元件版本。
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」頁面。
選取「設定叢集」面板。
- 在「元件」部分:
- 在「選用元件」中,選取 Trino 和其他要安裝在叢集上的選用元件。
- 在「元件閘道」下方,選取「啟用元件閘道」(請參閱「查看及存取元件閘道網址」)。
gcloud CLI
如要建立包含 Trino 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create 指令搭配 --optional-components
標記。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
- CLUSTER_NAME:叢集名稱。
- REGION:叢集所在的 Compute Engine 區域。
設定屬性
將 --properties
標記新增至 gcloud dataproc clusters create
指令,以設定 trino
、trino-jvm
和 trino-catalog
設定屬性。
-
應用程式屬性:使用含有
trino:
前置字的叢集屬性,設定 Trino 應用程式屬性,例如--properties="trino:join-distribution-type=AUTOMATIC"
。 - JVM 設定屬性:使用含有
trino-jvm:
前置字的叢集屬性,為 Trino 協調器和 worker Java 程序設定 JVM 屬性,例如--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
。 - 建立新目錄並新增目錄資源:請使用
trino-catalog:catalog-name.property-name
設定 Trino 目錄。範例:您可以搭配使用下列「properties」標記和「gcloud dataproc clusters create」指令,建立使用「prodhive」Hive 目錄的 Trino 叢集。系統會在
/usr/lib/trino/etc/catalog/
下建立prodhive.properties
檔案,以便啟用 prodhive 目錄。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Trino 元件。