Halaman ini menjelaskan cara menggunakan Cloud Storage FUSE dengan Dataflow untuk memproses set data bagi tugas machine learning (ML).
Saat menangani tugas ML, Dataflow dapat digunakan untuk memproses set data berukuran besar. Namun, beberapa library software umum yang digunakan untuk ML, seperti OpenCV, memiliki persyaratan file input. Aplikasi ini sering kali memerlukan akses ke file seolah-olah file tersebut disimpan di hard drive komputer lokal, bukan dari penyimpanan berbasis cloud. Persyaratan ini menimbulkan kesulitan dan penundaan. Sebagai solusi, pipeline dapat menggunakan konektor I/O khusus untuk input atau mendownload file ke mesin virtual (VM) Dataflow sebelum diproses. Solusi ini sering kali tidak efisien.
Cloud Storage FUSE menyediakan cara untuk menghindari solusi yang tidak efisien ini. Dengan Cloud Storage FUSE, Anda dapat memasang bucket Cloud Storage ke VM Dataflow. Hal ini membuat file di Cloud Storage tampak seolah-olah file tersebut adalah file lokal. Dengan demikian, software ML dapat mengaksesnya secara langsung tanpa perlu mendownloadnya terlebih dahulu.
Manfaat
Menggunakan Cloud Storage FUSE untuk tugas ML memberikan manfaat berikut:
- File input yang dihosting di Cloud Storage dapat diakses di VM Dataflow menggunakan semantik sistem file lokal.
- Karena data diakses sesuai permintaan, file input tidak perlu didownload terlebih dahulu.
Dukungan dan batasan
- Untuk menggunakan Cloud Storage FUSE dengan Dataflow, Anda harus mengonfigurasi VM pekerja dengan alamat IP eksternal agar memenuhi persyaratan akses internet.
Menentukan bucket yang akan digunakan dengan Cloud Storage FUSE
Untuk menentukan bucket Cloud Storage yang akan dipasang ke VM, gunakan
flag --experiments
. Untuk menentukan
beberapa bucket, gunakan pembatas titik koma (;
) di antara nama bucket.
Formatnya adalah sebagai berikut:
--experiments="gcsfuse_buckets=CONFIG"
Ganti kode berikut:
CONFIG
: daftar entri Cloud Storage yang dibatasi titik koma, dengan setiap entri adalah salah satu dari berikut ini:BUCKET_NAME
: Nama bucket Cloud Storage. Contoh,dataflow-samples
. Jika Anda tidak menyertakan mode bucket, bucket diperlakukan sebagai hanya baca.BUCKET_NAME:MODE
: Nama bucket Cloud Storage dan mode terkaitnya, denganMODE
adalahro
(hanya baca) ataurw
(baca-tulis).Contoh:
--experiments="gcsfuse_buckets=read-bucket1;read-bucket2:ro;write-bucket1:rw"
Dalam contoh ini, menentukan mode memastikan hal berikut:
gs://read-bucket1
dipasang dalam mode hanya baca.gs://read-bucket2
dipasang dalam mode hanya baca.gs://write-bucket1
dipasang dalam mode baca-tulis.
Kode pipeline Beam dapat mengakses bucket ini di
/var/opt/google/gcs/BUCKET_NAME
.