Komponen Presto opsional Dataproc

Anda dapat menginstal komponen tambahan seperti Presto saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan cara menginstal komponen Presto secara opsional di cluster Dataproc.

Presto (Trino) adalah mesin kueri SQL terdistribusi open source. Server Presto dan UI Web secara default tersedia di port 8060 (atau port 7778 jika Kerberos diaktifkan) pada node master pertama di cluster.

Secara default, Presto di Dataproc dikonfigurasi untuk bekerja dengan konektor Hive, BigQuery, Memory, TPCH, dan TPCDS.

Setelah membuat cluster dengan komponen Presto, Anda dapat menjalankan kueri:

Menginstal komponen

Instal komponen saat Anda membuat cluster Dataproc. Komponen dapat ditambahkan ke cluster yang dibuat dengan Dataproc versi 1.3 dan yang lebih baru.

Lihat Versi Dataproc yang didukung untuk versi komponen yang disertakan dalam setiap rilis image Dataproc.

Perintah gcloud

Untuk membuat cluster Dataproc yang menyertakan komponen Presto, gunakan perintah gcloud dataproc clusters create cluster-name dengan flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Mengonfigurasi properti

Tambahkan tanda --properties ke perintah gcloud dataproc clusters create untuk menetapkan properti konfigurasi presto, presto-jvm, dan presto-catalog.

  • Properti aplikasi: Gunakan properti cluster dengan awalan presto: untuk mengonfigurasi properti aplikasi Presto—misalnya, --properties="presto:join-distribution-type=AUTOMATIC".
  • Properti konfigurasi JVM: Gunakan properti cluster dengan awalan presto-jvm: untuk mengonfigurasi properti JVM bagi proses Java koordinator dan pekerja Presto—misalnya, --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Membuat katalog baru dan menambahkan properti katalog: Gunakan presto-catalog:catalog-name.property-name untuk mengonfigurasi katalog Presto.

    Contoh: Flag `properties` berikut dapat digunakan dengan perintah `gcloud dataproc clusters create` untuk membuat cluster Presto dengan katalog Hive "prodhive". File prodhive.properties akan dibuat di bawah/usr/lib/presto/etc/catalog/ untuk mengaktifkan katalog prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

REST API

Komponen Presto dapat ditentukan melalui Dataproc API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.

Konsol

    1. Aktifkan komponen dan gateway komponen.
      • Di konsol Google Cloud , buka halaman Dataproc Create a cluster. Panel Set up cluster dipilih.
      • Di bagian Komponen:
        • Di bagian Komponen opsional, pilih Presto dan komponen opsional lainnya untuk diinstal di cluster Anda.
        • Di bagian Component Gateway, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Component Gateway).