Halaman ini diterjemahkan oleh Cloud Translation API.

Mengonfigurasi Dataproc Hub

Dataproc Hub adalah server JupyterHub yang disesuaikan. Admin mengonfigurasi dan membuat instance Dataproc Hub yang dapat memunculkan cluster Dataproc satu pengguna untuk menghosting lingkungan notebook Jupyter dan JupyterLab (lihat Menggunakan Dataproc Hub).

Luncurkan Notebook untuk beberapa pengguna. Anda dapat membuat instance Vertex AI Workbench yang kompatibel dengan Dataproc atau menginstal plugin Dataproc JupyterLab di VM untuk menyajikan notebook kepada beberapa pengguna.

Tujuan

Tentukan konfigurasi cluster Dataproc (atau gunakan salah satu file konfigurasi yang telah ditentukan).
Tetapkan variabel lingkungan instance Dataproc Hub.
Buat instance Dataproc Hub.

Sebelum memulai

Jika Anda belum melakukannya, buat Google Cloud project dan bucket Cloud Storage.

Menyiapkan project Anda
1. Membuat bucket Cloud Storage di project Anda untuk menyimpan data yang digunakan dalam tutorial ini.
  1. In the Google Cloud console, go to the Cloud Storage Buckets page.
    Go to Buckets
  2. Click Create.
  3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
    1. In the Get started section, do the following:
      - Enter a globally unique name that meets the bucket naming requirements.
      - To add a bucket label, expand the Labels section (), click Add label, and specify a key and a value for your label.
    2. In the Choose where to store your data section, do the following:
      1. Select a Location type.
      2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
        
        If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
      3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:
        
        Set up cross-bucket replication
        
        In the Bucket menu, select a bucket.
        
        In the Replication settings section, click Configure to configure settings for the replication job.
        
        The Configure cross-bucket replication pane appears.
        
        To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
        
        To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
        
        Click Done.
    3. In the Choose how to store your data section, do the following:
      1. Select a default storage class for the bucket or Autoclass for automatic storage class management of your bucket's data.
      2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
        Note: You cannot enable hierarchical namespace in existing buckets.
    4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
      Note: You cannot change the Prevent public access setting if this setting is enforced at an organization policy.
    5. In the Choose how to protect object data section, do the following:
      - Select any of the options under Data protection that you want to set for your bucket.
        
        To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
        
        To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
        
        To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
        
        To enable Object Retention Lock, click the Enable object retention checkbox.
        
        To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
      - To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
  4. Click Create.

Menentukan konfigurasi cluster

Instance Dataproc Hub membuat cluster dari nilai konfigurasi yang ada dalam file konfigurasi cluster YAML.

Konfigurasi cluster bawaan: Anda dapat menggunakan file konfigurasi bawaan berikut yang ada di Cloud Storage:

example-cluster config: Menyiapkan cluster komponen Jupyter standar dengan satu node master dan 2 node worker
Konfigurasi example-single-node: Menyiapkan cluster komponen Jupyter dengan satu node

Untuk melihat file konfigurasi Cloud Storage publik ini, jalankan:

gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-cluster.yaml
gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-single-node.yaml

Buat hub panduan memulai. Untuk membuat hub menggunakan konfigurasi cluster yang telah ditentukan sebelumnya, lanjutkan ke Membuat instance Dataproc Hub. Lokasi Cloud Storage dari konfigurasi cluster yang telah ditentukan sebelumnya yang tercantum di atas adalah nilai default kolom variabel lingkungan DATAPROC_CONFIGS.

Konfigurasi cluster Anda dapat menentukan fitur atau komponen apa pun yang tersedia untuk cluster Dataproc (seperti jenis mesin, tindakan inisialisasi, dan komponen opsional). Versi image cluster harus 1.4.13 atau yang lebih tinggi. Mencoba membuat cluster dengan versi image yang lebih rendah dari 1.4.13 akan menyebabkan error dan gagal.

Contoh file konfigurasi cluster YAML

clusterName: cluster-name
config:
  softwareConfig:
    imageVersion: 2.2-ubuntu22
    optionalComponents:
    - JUPYTER

Setiap konfigurasi harus disimpan di Cloud Storage. Anda dapat membuat dan menyimpan beberapa file konfigurasi untuk memberi pengguna pilihan saat mereka menggunakan Dataproc Hub untuk membuat lingkungan notebook cluster Dataproc.

Ada dua cara untuk membuat file konfigurasi cluster YAML:

Membuat file konfigurasi cluster YAML dari konsol
Mengekspor file konfigurasi cluster YAML dari cluster yang ada

Membuat file konfigurasi cluster YAML dari konsol

Buka halaman Buat cluster di konsol Google Cloud , lalu pilih dan isi kolom untuk menentukan jenis cluster yang akan dibuat Dataproc Hub untuk pengguna.
Setelan region dan zona akan diganti saat cluster pengguna di-spawn: region cluster yang di-spawn akan menjadi region tempat Dataproc Hub berada, dan pengguna akan memilih zona dalam region ini.
1. Di bagian bawah panel kiri, pilih "REST yang setara".
2. Salin blok JSON yang dihasilkan, tidak termasuk baris permintaan POST di bagian awal, lalu tempel blok JSON ke konverter JSON ke YAML online (cari "Convert JSON to YAML" di internet).
  Beberapa konverter JSON ke YAML menghasilkan baris pertama yang berisi "---". Pencantuman baris ini dalam file YAML bersifat opsional.
3. Salin YAML yang dikonversi ke file cluster-config-filename.yaml lokal.

Mengekspor file konfigurasi cluster YAML dari cluster yang ada

Buat cluster yang sesuai dengan persyaratan Anda.

Ekspor konfigurasi cluster ke file cluster-config-filename.yaml lokal.

gcloud dataproc clusters export cluster-name \
    --destination cluster-config-filename.yaml  \
    --region region

Simpan file konfigurasi YAML di Cloud Storage

Salin file konfigurasi cluster YAML lokal Anda ke bucket Cloud Storage Anda.

gcloud storage cp cluster-config-filename.yaml gs://bucket-name/

Menetapkan variabel lingkungan instance Dataproc Hub

Administrator dapat menetapkan variabel lingkungan hub yang tercantum dalam tabel di bawah untuk menetapkan atribut cluster Dataproc yang akan dibuat oleh pengguna hub.

Variabel	Deskripsi	Contoh
NOTEBOOKS_LOCATION	Bucket Cloud Storage atau folder bucket yang berisi notebook pengguna. Awalan `gs://` bersifat opsional. Default: Bucket staging Dataproc.	gs://`bucket-name`/
DATAPROC_CONFIGS	Daftar string jalur Cloud Storage yang dipisahkan koma ke file konfigurasi cluster YAML. Awalan `gs://` bersifat opsional. Default: `gs://dataproc-spawner-dist/example-configs/`. yang berisi `example-cluster.yaml` dan `example-single-node.yaml` bawaan.	gs://`cluster-config-filename`.yaml
DATAPROC_LOCATIONS_LIST	Akhiran zona di region tempat instance Dataproc Hub berada. Pengguna dapat memilih salah satu zona ini sebagai zona tempat cluster Dataproc mereka akan dibuat. Default: "b".	b,c,d
DATAPROC_DEFAULT_SUBNET	Subnet tempat instance Dataproc Hub akan menghasilkan cluster Dataproc. Default: subnet instance Dataproc Hub.	https://www.googleapis.com/compute/v1/projects/`project-id`/regions/`region`/subnetworks/`subnet-name`
DATAPROC_SERVICE_ACCOUNT	Akun layanan yang akan digunakan VM Dataproc untuk berjalan. Default: Jika tidak ditetapkan, akun layanan Dataproc default akan digunakan.	`service-account`@`project-id`.iam.gserviceaccount.com
SPAWNER_DEFAULT_URL	Apakah akan menampilkan UI Jupyter atau JupyterLab pada cluster Dataproc yang dimunculkan secara default. Default: "/lab".	`/` atau `/lab`, untuk Jupyter atau JupyterLab.
DATAPROC_ALLOW_CUSTOM_CLUSTERS	Apakah akan mengizinkan pengguna untuk menyesuaikan cluster Dataproc mereka. Default: false.	"true" atau "false"
DATAPROC_MACHINE_TYPES_LIST	Daftar jenis mesin yang diizinkan untuk dipilih pengguna untuk cluster Dataproc mereka yang dihasilkan, jika penyesuaian cluster (DATAPROC_ALLOW_CUSTOM_CLUSTERS) diaktifkan. Default: kosong (semua jenis mesin diizinkan).	n1-standard-4,n1-standard-8,e2-standard-4,n1-highcpu-4
NOTEBOOKS_EXAMPLES_LOCATION	Jalur Cloud Storage ke bucket notebook atau folder bucket yang akan didownload ke cluster Dataproc yang dihasilkan saat cluster dimulai. Default: kosong.	gs://`bucket-name`/

Menetapkan variabel lingkungan hub

Ada dua cara untuk menetapkan variabel lingkungan hub:

Menetapkan variabel lingkungan hub dari konsol
Menetapkan variabel lingkungan hub dalam file teks

Menetapkan variabel lingkungan hub dari konsol

Saat Anda membuat instance Dataproc Hub dari tab User-Managed Notebooks di halaman Dataproc→Workbench di konsol Google Cloud , Anda dapat mengklik tombol Populate untuk membuka formulir Populate Dataproc Hub yang memungkinkan Anda menetapkan setiap variabel lingkungan.

Menetapkan variabel lingkungan hub dalam file teks

Buat file. Anda dapat menggunakan editor teks untuk menetapkan variabel lingkungan instance Dataproc Hub dalam file lokal. Atau, Anda dapat membuat file dengan menjalankan perintah berikut setelah mengisi nilai placeholder dan mengubah atau menambahkan variabel serta nilainya.
```
cat <<EOF > environment-variables-file
DATAPROC_CONFIGS=gs://bucket/cluster-config-filename.yaml
NOTEBOOKS_LOCATION=gs://bucket/notebooks
DATAPROC_LOCATIONS_LIST=b,c
EOF
```
Simpan file di Cloud Storage. Salin file variabel lingkungan instance Dataproc Hub lokal ke bucket Cloud Storage Anda.
```
gcloud storage cp environment-variable-filename gs://bucket-name/folder-name/
```

Menetapkan peran Identity and Access Management (IAM)

Dataproc Hub mencakup identitas berikut dengan kemampuan berikut:

Administrator: membuat instance Dataproc Hub
Pengguna Data dan ML: mengakses UI Dataproc Hub
Akun layanan Dataproc Hub: merepresentasikan Dataproc Hub
Akun layanan Dataproc: merepresentasikan cluster Dataproc yang dibuat Dataproc Hub.

Setiap identitas memerlukan peran atau izin tertentu untuk melakukan tugas terkaitnya. Tabel di bawah ini merangkum peran dan izin IAM yang diperlukan oleh setiap identitas.

Identitas	Jenis	Peran atau izin
Administrator Dataproc Hub	Akun Pengguna atau Akun layanan	roles/notebooks.admin
Pengguna Dataproc Hub	Pengguna	notebooks.instances.use, dataproc.clusters.use
Hub Dataproc	Akun layanan	roles/dataproc.hubAgent
Dataproc	Akun layanan	roles/dataproc.worker

Membuat instance Dataproc Hub

Sebelum memulai: Untuk membuat instance Dataproc Hub dari konsol Google Cloud , akun pengguna Anda harus memiliki izin compute.instances.create. Selain itu, akun layanan instance—akun layanan default Compute Engine atau akun layanan yang ditentukan pengguna yang tercantum di IAM & admin > Service Accounts (lihat Akun layanan VM Dataproc)—harus memiliki izin iam.serviceAccounts.actAs.
Buka halaman Dataproc→Workbench di konsol Google Cloud , lalu pilih tab User-Managed Notebooks.
Jika belum dipilih sebelumnya sebagai filter, klik kotak Filter, lalu pilih **Environment:Dataproc Hub"".
Klik Notebook Baru→Dataproc Hub.
Di halaman Create a user-managed notebook, berikan informasi berikut:
1. Nama notebook: Nama instance Dataproc Hub.
2. Region: Pilih region untuk instance Dataproc Hub. Cluster Dataproc yang dibuat oleh instance Dataproc Hub ini juga akan dibuat di region ini.
  Untuk mendapatkan performa terbaik, pilih region yang dekat secara geografis.
3. Zona: Pilih zona dalam region yang dipilih.
4. Lingkungan:
  1. Environment: Pilih Dataproc Hub.
  2. Select a script to run after creation (opsional): Anda dapat menyisipkan atau menjelajahi dan memilih skrip atau executable tindakan inisialisasi untuk dijalankan di cluster Dataproc yang dibuat.
  3. Populate Dataproc Hub (optional): Klik Isi untuk membuka formulir yang memungkinkan Anda menetapkan setiap variabel lingkungan hub (lihat Menetapkan variabel lingkungan instance Dataproc Hub untuk mengetahui deskripsi setiap variabel). Dataproc menggunakan nilai default untuk variabel lingkungan yang tidak ditetapkan. Sebagai alternatif, Anda dapat menetapkan pasangan Metadata key:value untuk menetapkan variabel lingkungan (lihat item berikutnya).
  4. Metadata:
    1. Jika Anda membuat file teks yang berisi setelan variabel lingkungan hub (lihat Menetapkan variabel lingkungan hub), berikan nama file sebagai key dan lokasi Cloud Storage file sebagai value.gs://bucket-name/folder-name/environment-variable-filename Dataproc menggunakan nilai default untuk variabel lingkungan yang tidak disetel.
5. Konfigurasi mesin:
  1. Machine Type: Pilih jenis mesin Compute Engine.
  2. Tetapkan opsi konfigurasi mesin lainnya.
6. Opsi Lainnya:
  1. Anda dapat meluaskan dan menetapkan atau mengganti nilai default di bagian Disks, Networking, Permission, Security, dan Environment upgrade and system health.
7. Klik Create untuk meluncurkan instance Dataproc Hub.
Link Open JupyterLab untuk instance Dataproc Hub akan aktif setelah instance dibuat. Pengguna mengklik link ini untuk membuka halaman server JupyterHub guna mengonfigurasi dan membuat cluster JupyterLab Dataproc (lihat Menggunakan Dataproc Hub).

Pembersihan

Menghapus instance Dataproc Hub

Untuk menghapus instance Dataproc Hub Anda:

gcloud compute instances delete --project=${PROJECT} ${INSTANCE_NAME}

Menghapus bucket

Untuk menghapus bucket Cloud Storage yang Anda buat di bagian Sebelum Anda memulai, termasuk file data yang disimpan di bucket:
```
gcloud storage rm gs://${BUCKET_NAME} --recursive
```

Langkah berikutnya

Menggunakan Dataproc Hub