當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Presto 等其他元件。本頁說明如何在 Dataproc 叢集上選用安裝 Presto 元件。
Presto (Trino) 是開放原始碼分散式 SQL 查詢引擎。根據預設,叢集第一個主要節點的通訊埠 8060
可以使用 Presto 伺服器和網頁版 UI。如果已啟用 Kerberos,則為通訊埠 7778
。
根據預設,Dataproc 上的 Presto 會設定為與 Hive
、BigQuery
、Memory
、TPCH
和 TPCDS
連接器搭配使用。
使用 Presto 元件建立叢集後,即可執行查詢:
- 使用本機終端機的
gcloud dataproc jobs submit presto
指令 - 使用
presto
CLI (指令列介面),從叢集的第一個主要節點的終端機視窗執行,請參閱「搭配 Dataproc 使用 Trino」一文
安裝元件
請在建立 Dataproc 叢集時安裝元件。您可在以 Dataproc 1.3 版以上版本建立的叢集中新增元件。
請參閱支援的 Dataproc 版本,瞭解每個 Dataproc 映像檔版本中包含的元件版本。
gcloud 指令
如要建立包含 Presto 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create cluster-name 指令搭配 --optional-components
標記。
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
設定屬性
在 gcloud dataproc clusters create
指令中新增 --properties
標記,設定 presto、presto-jvm 和 presto-catalog config 屬性。
-
應用程式屬性:使用帶有
presto:
前置字元的叢集屬性,設定 Presto 應用程式屬性,例如--properties="presto:join-distribution-type=AUTOMATIC"
。 - JVM 設定屬性:使用具有
presto-jvm:
前置字元的叢集屬性,為 Presto 協調器和工作站 Java 程序設定 JVM 屬性,例如--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
。 - 建立新目錄並新增目錄屬性:使用
presto-catalog:catalog-name.property-name
設定 Presto 目錄。範例:下列 `properties` 標記可與 `gcloud dataproc clusters create` 指令搭配使用,建立具有「prodhive」Hive 目錄的 Presto 叢集。系統會在
/usr/lib/presto/etc/catalog/
下建立prodhive.properties
檔案,以啟用 prodhive 目錄。--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Presto 元件。
控制台
- 啟用元件和元件閘道。
- 在 Google Cloud 控制台中,開啟 Dataproc 的「建立叢集」頁面。選取「設定叢集」面板。
- 在「元件」部分:
- 在「選用元件」下方,選取要安裝在叢集上的 Presto 和其他選用元件。
- 在「元件閘道」下方,選取「啟用元件閘道」(請參閱「查看及存取元件閘道網址」)。