Bucket staging dan sementara Dataproc

Saat Anda membuat cluster, HDFS akan digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage. Secara default, Dataproc juga membuat bucket staging Cloud Storage dan bucket sementara Cloud Storage di project Anda atau menggunakan kembali bucket staging dan bucket sementara yang dibuat Dataproc dari permintaan pembuatan cluster sebelumnya.

  • Bucket staging: Digunakan untuk melakukan staging dependensi tugas cluster, output driver tugas, dan file konfigurasi cluster. Juga menerima output dari perintah gcloud CLI gcloud dataproc clusters diagnose.

  • Bucket sementara: Digunakan untuk menyimpan data tugas dan cluster efemeral, seperti file histori Spark dan MapReduce.

Jika Anda tidak menentukan bucket sementara atau penyiapan saat membuat cluster, Dataproc akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk bucket sementara dan penyiapan cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket tingkat project per lokasi ini. Bucket staging dan bucket sementara yang dibuat Dataproc digunakan bersama oleh berbagai cluster di region yang sama, dan dibuat dengan durasi retensi penghapusan sementara Cloud Storage yang ditetapkan ke 0 detik.

Bucket sementara berisi data sementara, dan memiliki TTL 90 hari. Bucket penyiapan, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi Anda (file dengan ekstensi nama file ".jar" yang berada di folder bucket penyiapan) untuk menjadwalkan penghapusan file dependensi Anda saat tidak lagi diperlukan oleh cluster Anda.

Membuat bucket sementara dan staging Anda sendiri

Daripada mengandalkan pembuatan bucket staging dan temp default, Anda dapat menentukan bucket Cloud Storage yang sudah ada yang akan digunakan Dataproc sebagai bucket staging dan temp cluster Anda.

Perintah gcloud

Jalankan perintah gcloud dataproc clusters create dengan tanda --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan bucket sementara dan/atau staging cluster Anda.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

Gunakan kolom ClusterConfig.configBucket dan ClusterConfig.tempBucket dalam permintaan clusters.create untuk menentukan bucket sementara dan penyiapan cluster Anda.

Konsol

Di konsol Google Cloud , buka halaman Dataproc Create a cluster. Pilih panel Sesuaikan cluster, lalu gunakan kolom Penyimpanan file untuk menentukan atau memilih bucket penyiapan cluster.

Catatan: Saat ini, penentuan bucket sementara menggunakan Google Cloud konsol tidak didukung.

Dataproc menggunakan struktur folder yang ditentukan untuk bucket Cloud Storage yang terlampir ke cluster. Dataproc juga mendukung pelampiran lebih dari satu cluster ke bucket Cloud Storage. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Anda dapat menggunakan alat command line gcloud, Dataproc API, atau konsolGoogle Cloud untuk mencantumkan nama bucket sementara dan penyiapan cluster.

Konsol

  • \Lihat detail cluster, yang mencakup nama bucket penyiapan cluster, di halaman Clusters Dataproc di konsol Google Cloud .
  • Di halaman Google Cloud konsol Cloud Storage Browser, filter hasil yang berisi "dataproc-temp-".

Perintah gcloud

Jalankan perintah gcloud dataproc clusters describe secara lokal di jendela terminal atau di Cloud Shell. Bucket sementara dan penyiapan yang terkait dengan cluster Anda tercantum dalam output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama bucket sementara dan penyiapan cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Hal ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.

Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...