Componente Presto opcional de Dataproc

Puedes instalar componentes adicionales, como Presto, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe cómo puedes instalar opcionalmente el componente Presto en un clúster de Dataproc.

Presto (Trino) es un motor de consulta de SQL distribuido de código abierto. El servidor y la interfaz de usuario web de Presto están disponibles de forma predeterminada en el puerto 8060 (o 7778 si Kerberos está habilitado) del primer nodo maestro del clúster.

De forma predeterminada, Presto en Dataproc está configurado para funcionar con los conectores Hive, BigQuery, Memory, TPCH y TPCDS.

Después de crear un clúster con el componente Presto, puedes ejecutar consultas:

Instalar el componente

Instala el componente al crear un clúster de Dataproc. Los componentes se pueden añadir a los clústeres creados con la versión 1.3 de Dataproc o versiones posteriores.

Consulta las versiones de Dataproc compatibles para ver la versión del componente incluida en cada lanzamiento de imagen de Dataproc.

Comando gcloud

Para crear un clúster de Dataproc que incluya el componente Presto, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurar propiedades

Añade la marca --properties al comando gcloud dataproc clusters create para definir las propiedades de configuración de presto, presto-jvm y presto-catalog.

  • Propiedades de la aplicación: usa propiedades de clúster con el prefijo presto: para configurar las propiedades de la aplicación Presto. Por ejemplo, --properties="presto:join-distribution-type=AUTOMATIC".
  • Propiedades de configuración de JVM: usa propiedades de clúster con el prefijo presto-jvm: para configurar las propiedades de JVM de los procesos de Java del coordinador y del trabajador de Presto. Por ejemplo, --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Crear catálogos y añadir propiedades de catálogo: use presto-catalog:catalog-name.property-name para configurar catálogos de Presto.

    Ejemplo: La siguiente marca `properties` se puede usar con el comando `gcloud dataproc clusters create` para crear un clúster de Presto con un catálogo de Hive "prodhive". Se creará un archivo prodhive.properties en /usr/lib/presto/etc/catalog/ para habilitar el catálogo de prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

El componente de Presto se puede especificar a través de la API Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Consola

    1. Habilita el componente y la pasarela de componentes.
      • En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. Se selecciona el panel Configurar clúster.
      • En la sección Components (Componentes):
        • En Componentes opcionales, selecciona Presto y otros componentes opcionales que quieras instalar en el clúster.
        • En Pasarela de componentes, selecciona Habilitar pasarela de componentes (consulta Ver y acceder a URLs de pasarela de componentes).