Puedes instalar componentes adicionales, como Presto, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe cómo puedes instalar opcionalmente el componente Presto en un clúster de Dataproc.
Presto (Trino) es un motor de consulta de SQL distribuido de código abierto. El servidor y la interfaz de usuario web de Presto están disponibles de forma predeterminada en el puerto 8060
(o 7778
si Kerberos está habilitado) del primer nodo maestro del clúster.
De forma predeterminada, Presto en Dataproc está configurado para funcionar con los conectores Hive
, BigQuery
, Memory
, TPCH
y TPCDS
.
Después de crear un clúster con el componente Presto, puedes ejecutar consultas:
- desde un terminal local con el comando
gcloud dataproc jobs submit presto
- desde una ventana de terminal del primer nodo maestro del clúster mediante la CLI (interfaz de línea de comandos)
presto
. Consulta Usar Trino con Dataproc.
Instalar el componente
Instala el componente al crear un clúster de Dataproc. Los componentes se pueden añadir a los clústeres creados con la versión 1.3 de Dataproc o versiones posteriores.
Consulta las versiones de Dataproc compatibles para ver la versión del componente incluida en cada lanzamiento de imagen de Dataproc.
Comando gcloud
Para crear un clúster de Dataproc que incluya el componente Presto, usa el comando gcloud dataproc clusters create cluster-name
con la marca --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Configurar propiedades
Añade la marca --properties
al comando gcloud dataproc clusters create
para definir las propiedades de configuración de presto, presto-jvm y presto-catalog.
-
Propiedades de la aplicación: usa propiedades de clúster con el prefijo
presto:
para configurar las propiedades de la aplicación Presto. Por ejemplo,--properties="presto:join-distribution-type=AUTOMATIC"
. - Propiedades de configuración de JVM: usa propiedades de clúster con el prefijo
presto-jvm:
para configurar las propiedades de JVM de los procesos de Java del coordinador y del trabajador de Presto. Por ejemplo,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Crear catálogos y añadir propiedades de catálogo: use
presto-catalog:catalog-name.property-name
para configurar catálogos de Presto.Ejemplo: La siguiente marca `properties` se puede usar con el comando `gcloud dataproc clusters create` para crear un clúster de Presto con un catálogo de Hive "prodhive". Se creará un archivo
prodhive.properties
en/usr/lib/presto/etc/catalog/
para habilitar el catálogo de prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
El componente de Presto se puede especificar a través de la API Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.
Consola
- Habilita el componente y la pasarela de componentes.
- En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. Se selecciona el panel Configurar clúster.
- En la sección Components (Componentes):
- En Componentes opcionales, selecciona Presto y otros componentes opcionales que quieras instalar en el clúster.
- En Pasarela de componentes, selecciona Habilitar pasarela de componentes (consulta Ver y acceder a URLs de pasarela de componentes).