Puoi installare componenti aggiuntivi come Trino quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Trino su un cluster Dataproc.
Trino è un motore di query SQL distribuito in open source. Il server Trino e la UI web sono disponibili per impostazione predefinita sulla porta 8060
(o sulla porta 7778
se è abilitato Kerberos) sul primo nodo master del cluster.
Per impostazione predefinita, Trino su Dataproc è configurato per funzionare con i connettori Hive
, BigQuery
, Memory
, TPCH
e TPCDS
.
Dopo aver creato un cluster con il componente Trino, puoi eseguire query:
- da un terminale locale con il comando
gcloud dataproc jobs submit trino
- da una finestra del terminale sul primo nodo master del cluster utilizzando l'interfaccia a riga di comando
trino
. Per maggiori informazioni, consulta Utilizzare Trino con Dataproc.
Installa il componente
Installa il componente quando crei un cluster Dataproc.
Consulta Versioni di Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.
Console
- Nella console Google Cloud , vai alla pagina Dataproc
Crea un cluster.
Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Trino e altri componenti facoltativi da installare sul cluster.
- In Gateway dei componenti, seleziona Attiva gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).
Interfaccia a riga di comando gcloud
Per creare un cluster Dataproc che includa il componente Trino,
utilizza il
comando gcloud dataproc clusters create
con il flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
- CLUSTER_NAME: il nome del cluster.
- REGION: una regione Compute Engine in cui si troverà il cluster.
Configurazione delle proprietà
Aggiungi il flag --properties
al comando gcloud dataproc clusters create
per impostare le proprietà di configurazione trino
, trino-jvm
e trino-catalog
.
-
Proprietà dell'applicazione:utilizza le proprietà del cluster con il prefisso
trino:
per configurare le proprietà dell'applicazione Trino, ad esempio--properties="trino:join-distribution-type=AUTOMATIC"
. - Proprietà di configurazione JVM:utilizza le proprietà del cluster con il prefisso
trino-jvm:
per configurare le proprietà JVM per i processi Java del coordinatore e del worker Trino, ad esempio--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Creazione di nuovi cataloghi e aggiunta di proprietà catalogo:utilizza
trino-catalog:catalog-name.property-name
per configurare i cataloghi Trino.Esempio: il seguente flag `properties` può essere utilizzato con il comando `gcloud dataproc clusters create` per creare un cluster Trino con un catalogo Hive "prodhive". Verrà creato un file
prodhive.properties
in/usr/lib/trino/etc/catalog/
per attivare il catalogo prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API REST
Il componente Trino può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.