Vous pouvez installer des composants supplémentaires tels que Trino lorsque vous créez un Dataproc à l'aide de la commande Composants facultatifs . Cette page explique comment installer le composant Trino (facultatif) sur un cluster Dataproc.
Trino est une chaîne
et le moteur de requêtes SQL source. Le serveur Trino et
Les interfaces utilisateur Web sont disponibles par défaut sur le port 8060
(ou le port 7778
si Kerberos est
activé) sur le premier nœud maître du cluster.
Par défaut, Trino sur Dataproc est configuré pour fonctionner avec Hive
, BigQuery
,
connecteurs Memory
, TPCH
et TPCDS
.
Après avoir créé un cluster avec le composant Trino, vous pouvez exécuter des requêtes :
- à partir d'un terminal local avec la commande
gcloud dataproc jobs submit trino
; - depuis une fenêtre de terminal sur le premier nœud maître du cluster à l'aide du
CLI (interface de ligne de commande)
trino
: consultez Utiliser Trino avec Dataproc
Installer le composant
Installez le composant lorsque vous créez un cluster Dataproc.
Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.
Commande gcloud
Pour créer un cluster Dataproc incluant le composant Trino,
utilisez la
gcloud dataproc clusters create cluster-name
avec l'option --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Configurer les propriétés
Ajoutez l'option --properties
à la
gcloud dataproc clusters create
pour définir
les propriétés de configuration trino, trino-jvm et trino-catalog.
-
Propriétés de l'application:utilisez les propriétés du cluster avec la propriété
Préfixe
trino:
à configurer Propriétés d'application trino (par exemple,--properties="trino:join-distribution-type=AUTOMATIC"
). - Propriétés de configuration de la machine virtuelle Java : utilisez les propriétés de cluster avec le préfixe
trino-jvm:
pour configurer les propriétés de la machine virtuelle Java pour les processus Java des coordinateurs et des nœuds de calcul de Trino, par exemple--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Créer des catalogues et ajouter des propriétés de catalogue:utilisez
trino-catalog:catalog-name.property-name
pour configurer les catalogues Trino.Exemple : Vous pouvez utiliser l'indicateur "properties" suivant : à l'aide de la commande "gcloud dataproc clusters create" pour créer un cluster Trino ; avec un "prodhive" Catalogue Hive. Un fichier
prodhive.properties
sera créé sous/usr/lib/trino/etc/catalog/
pour activer le catalogue de prodhives.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
API REST
Vous pouvez spécifier le composant Trino via l'API Dataproc à l'aide de SoftwareConfig.Component dans le cadre d'un clusters.create requête.
Console
- Activez le composant et la passerelle des composants.
- Dans la console Google Cloud, ouvrez Dataproc Créer un cluster . Le panneau "Configurer un cluster" est sélectionné.
- Dans la section Composants :
- Sous "Composants facultatifs", sélectionnez "Trino" et les autres composants facultatifs à installer sur votre cluster.
- Sous "Passerelle des composants", sélectionnez "Activer la passerelle des composants" (consultez la section Afficher les URL de la passerelle des composants et y accéder).