Composant Trino facultatif de Dataproc

Vous pouvez installer des composants supplémentaires tels que Trino lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page explique comment installer le composant Trino sur un cluster Dataproc.

Trino est un moteur de requêtes SQL Open Source distribué. Le serveur et l'interface utilisateur Web de Trino sont disponibles par défaut sur le port 8060 (ou le port 7778 si Kerberos est activé) sur le premier nœud maître du cluster.

Par défaut, Trino sur Dataproc est configuré pour fonctionner avec les connecteurs Hive, BigQuery, Memory, TPCH et TPCDS.

Après avoir créé un cluster avec le composant Trino, vous pouvez exécuter des requêtes:

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc.

Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Trino, exécutez la commande gcloud dataproc clusters create cluster-name avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurer les propriétés

Ajoutez l'option --properties à la commande gcloud dataproc clusters create pour définir les propriétés de configuration de Trino, Trino-Jvm et Trino-Catalog.

  • Propriétés de l'application:utilisez les propriétés du cluster avec le préfixe trino: pour configurer les propriétés de l'application Trino (par exemple, --properties="trino:join-distribution-type=AUTOMATIC").
  • Propriétés de configuration de la machine virtuelle Java:utilisez les propriétés de cluster avec le préfixe trino-jvm: pour configurer les propriétés de la JVM pour les processus Java des coordinateurs et des nœuds de calcul de Trino, par exemple --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Créer des catalogues et ajouter des propriétés de catalogue:utilisez trino-catalog:catalog-name.property-name pour configurer les catalogues Trino.

    Exemple:l'option "propriétés" suivante peut être utilisée avec la commande "gcloud dataproc clusters create" pour créer un cluster Trino avec un catalogue Hive "prodhive". Un fichier prodhive.properties sera créé sous /usr/lib/trino/etc/catalog/ pour activer le catalogue de prodhives.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

Le composant Trino peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

    1. Activez le composant et la passerelle des composants.
      • Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer un cluster" est sélectionné.
      • Dans la section Composants :