Memproses data ML menggunakan Dataflow dan Cloud Storage FUSE
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Halaman ini menjelaskan cara menggunakan
Cloud Storage FUSE dengan Dataflow
untuk memproses set data bagi tugas machine learning (ML).
Saat menangani tugas ML, Dataflow dapat digunakan untuk memproses set data
berukuran besar. Namun, beberapa library software umum yang digunakan untuk ML, seperti OpenCV, memiliki persyaratan file input. Aplikasi ini sering kali memerlukan akses ke file seolah-olah file tersebut disimpan di hard drive komputer lokal, bukan dari penyimpanan berbasis cloud. Persyaratan ini menimbulkan kesulitan dan penundaan. Sebagai solusi, pipeline dapat menggunakan konektor I/O khusus untuk input atau mendownload file ke mesin virtual (VM) Dataflow sebelum diproses. Solusi ini sering kali tidak efisien.
Cloud Storage FUSE menyediakan cara untuk menghindari solusi yang tidak efisien ini.
Dengan Cloud Storage FUSE, Anda dapat memasang bucket Cloud Storage ke VM Dataflow. Hal ini membuat file di Cloud Storage tampak seolah-olah
file tersebut adalah file lokal. Dengan demikian, software ML dapat mengaksesnya secara langsung tanpa
perlu mendownloadnya terlebih dahulu.
Manfaat
Menggunakan Cloud Storage FUSE untuk tugas ML memberikan manfaat berikut:
File input yang dihosting di Cloud Storage dapat diakses di VM Dataflow menggunakan semantik sistem file lokal.
Karena data diakses sesuai permintaan, file input tidak perlu didownload terlebih dahulu.
Dukungan dan batasan
Untuk menggunakan Cloud Storage FUSE dengan Dataflow, Anda harus mengonfigurasi VM pekerja dengan alamat IP eksternal agar memenuhi persyaratan akses internet.
Menentukan bucket yang akan digunakan dengan Cloud Storage FUSE
Untuk menentukan bucket Cloud Storage yang akan dipasang ke VM, gunakan
flag --experiments. Untuk menentukan
beberapa bucket, gunakan pembatas titik koma (;) di antara nama bucket.
Formatnya adalah sebagai berikut:
--experiments="gcsfuse_buckets=CONFIG"
Ganti kode berikut:
CONFIG: daftar entri Cloud Storage yang dibatasi titik koma, dengan setiap entri adalah salah satu dari berikut ini:
BUCKET_NAME: Nama bucket Cloud Storage.
Contoh, dataflow-samples. Jika Anda tidak menyertakan mode bucket, bucket
diperlakukan sebagai hanya baca.
BUCKET_NAME:MODE: Nama bucket Cloud Storage dan mode terkaitnya, dengan MODE adalah ro (hanya baca) atau rw (baca-tulis).
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-18 UTC."],[],[],null,["# Process ML data using Dataflow and Cloud Storage FUSE\n\nThis page describes how to use\n[Cloud Storage FUSE](/storage/docs/cloud-storage-fuse/overview) with Dataflow\nto process datasets for machine learning (ML) tasks.\n\nWhen working with ML tasks, Dataflow can be used for processing large\ndatasets. However, some common software libraries used for ML, like OpenCV, have\ninput file requirements. They frequently require files to be accessed as if they\nare stored on a local computer's hard drive, rather than from cloud-based\nstorage. This requirement creates difficulties and delays. As a solution,\npipelines can either use special I/O connectors for input or download files onto\nthe Dataflow virtual machines (VMs) before processing. These solutions\nare frequently inefficient.\n\nCloud Storage FUSE provides a way to avoid these inefficient solutions.\nCloud Storage FUSE lets you mount your Cloud Storage buckets onto the\nDataflow VMs. This makes the files in Cloud Storage appear as if they\nare local files. As a result, the ML software can access them directly without\nneeding to download them beforehand.\n\nBenefits\n--------\n\nUsing Cloud Storage FUSE for ML tasks offers the following benefits:\n\n- Input files hosted on Cloud Storage can be accessed in the Dataflow VM using local file system semantics.\n- Because the data is accessed on-demand, the input files don't have to be downloaded beforehand.\n\nSupport and limitations\n-----------------------\n\n- To use Cloud Storage FUSE with Dataflow, you must configure worker VMs with [external IP addresses](/dataflow/docs/guides/routes-firewall#internet_access_for) so that they meet the internet access requirements.\n\nSpecify buckets to use with Cloud Storage FUSE\n----------------------------------------------\n\nTo specify a Cloud Storage bucket to mount to a VM, use the\n[`--experiments`](/dataflow/docs/reference/pipeline-options) flag. To specify\nmultiple buckets, use a semicolon delimiter (`;`) between bucket names.\n\nThe format is as follows: \n\n --experiments=\"gcsfuse_buckets=\u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e\"\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e: a semicolon-delimited list of\n Cloud Storage entries, where each entry is one of the following:\n\n 1. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e: A Cloud Storage bucket name.\n For example, `dataflow-samples`. If you omit the bucket mode, the bucket\n is treated as read-only.\n\n 2. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e`:`\u003cvar translate=\"no\"\u003eMODE\u003c/var\u003e: A\n Cloud Storage bucket name and its associated mode, where `MODE` is\n either `ro` (read-only) or `rw` (read-write).\n\n For example: \n\n --experiments=\"gcsfuse_buckets=read-bucket1;read-bucket2:ro;write-bucket1:rw\"\n\n In this example, specifying the mode assures the following:\n - `gs://read-bucket1` is mounted in read-only mode.\n - `gs://read-bucket2` is mounted in read-only mode.\n - `gs://write-bucket1` is mounted in read-write mode.\n\n Beam pipeline code can access these buckets at\n `/var/opt/google/gcs/`\u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e."]]