Halaman ini diterjemahkan oleh Cloud Translation API.

Memproses data ML menggunakan Dataflow dan Cloud Storage FUSE

Halaman ini menjelaskan cara menggunakan Cloud Storage FUSE dengan Dataflow untuk memproses set data bagi tugas machine learning (ML).

Saat menangani tugas ML, Dataflow dapat digunakan untuk memproses set data berukuran besar. Namun, beberapa library software umum yang digunakan untuk ML, seperti OpenCV, memiliki persyaratan file input. Aplikasi ini sering kali memerlukan akses ke file seolah-olah file tersebut disimpan di hard drive komputer lokal, bukan dari penyimpanan berbasis cloud. Persyaratan ini menimbulkan kesulitan dan penundaan. Sebagai solusi, pipeline dapat menggunakan konektor I/O khusus untuk input atau mendownload file ke mesin virtual (VM) Dataflow sebelum diproses. Solusi ini sering kali tidak efisien.

Cloud Storage FUSE menyediakan cara untuk menghindari solusi yang tidak efisien ini. Dengan Cloud Storage FUSE, Anda dapat memasang bucket Cloud Storage ke VM Dataflow. Hal ini membuat file di Cloud Storage tampak seolah-olah file tersebut adalah file lokal. Dengan demikian, software ML dapat mengaksesnya secara langsung tanpa perlu mendownloadnya terlebih dahulu.

Manfaat

Menggunakan Cloud Storage FUSE untuk tugas ML memberikan manfaat berikut:

File input yang dihosting di Cloud Storage dapat diakses di VM Dataflow menggunakan semantik sistem file lokal.
Karena data diakses sesuai permintaan, file input tidak perlu didownload terlebih dahulu.

Dukungan dan batasan

Untuk menggunakan Cloud Storage FUSE dengan Dataflow, Anda harus mengonfigurasi VM pekerja dengan alamat IP eksternal agar memenuhi persyaratan akses internet.

Menentukan bucket yang akan digunakan dengan Cloud Storage FUSE

Untuk menentukan bucket Cloud Storage yang akan dipasang ke VM, gunakan flag --experiments. Untuk menentukan beberapa bucket, gunakan pembatas titik koma (;) di antara nama bucket.

Formatnya adalah sebagai berikut:

--experiments="gcsfuse_buckets=CONFIG"

Ganti kode berikut:

CONFIG: daftar entri Cloud Storage yang dibatasi titik koma, dengan setiap entri adalah salah satu dari berikut ini:
1. BUCKET_NAME: Nama bucket Cloud Storage. Contoh, dataflow-samples. Jika Anda tidak menyertakan mode bucket, bucket diperlakukan sebagai hanya baca.
2. BUCKET_NAME:MODE: Nama bucket Cloud Storage dan mode terkaitnya, dengan MODE adalah ro (hanya baca) atau rw (baca-tulis).
  
  Contoh:
```
--experiments="gcsfuse_buckets=read-bucket1;read-bucket2:ro;write-bucket1:rw"
```
  Dalam contoh ini, menentukan mode memastikan hal berikut:
  - gs://read-bucket1 dipasang dalam mode hanya baca.
  - gs://read-bucket2 dipasang dalam mode hanya baca.
  - gs://write-bucket1 dipasang dalam mode baca-tulis.
Kode pipeline Beam dapat mengakses bucket ini di /var/opt/google/gcs/BUCKET_NAME.

Memproses data ML menggunakan Dataflow dan Cloud Storage FUSE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Manfaat

Dukungan dan batasan

Menentukan bucket yang akan digunakan dengan Cloud Storage FUSE

Memproses data ML menggunakan Dataflow dan Cloud Storage FUSE