Processar dados de ML usando o Dataflow e o Cloud Storage FUSE
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Nesta página, descrevemos como usar o
Cloud Storage FUSE com o Dataflow
para processar conjuntos de dados em tarefas de machine learning (ML).
Ao trabalhar com tarefas de ML, o Dataflow pode ser usado para processar grandes conjuntos de dados. No entanto, algumas bibliotecas de software comuns usadas para ML, como o OpenCV, têm requisitos de arquivo de entrada. Eles geralmente exigem que os arquivos sejam acessados como se estivessem armazenados no disco rígido de um computador local, em vez de um armazenamento baseado na nuvem. Esse requisito cria dificuldades e atrasos. Como solução, os pipelines podem usar conectores especiais de E/S para entrada ou baixar arquivos nas máquinas virtuais (VMs) do Dataflow antes do processamento. Essas soluções costumam ser ineficientes.
O Cloud Storage FUSE oferece uma maneira de evitar essas soluções ineficientes.
Com o Cloud Storage FUSE, é possível ativar seus buckets do Cloud Storage nas VMs do Dataflow. Assim, os arquivos no Cloud Storage aparecem como se fossem locais. Como resultado, o software de ML pode acessar os dados diretamente sem precisar fazer o download deles antes.
Vantagens
O uso do Cloud Storage FUSE para tarefas de ML oferece os seguintes benefícios:
Os arquivos de entrada hospedados no Cloud Storage podem ser acessados na VM do Dataflow usando a semântica do sistema de arquivos local.
Como os dados são acessados sob demanda, não é necessário fazer o download dos arquivos de entrada antecipadamente.
Suporte e limitações
Para usar o Cloud Storage FUSE com o Dataflow, configure as VMs de worker com endereços IP externos para que atendam aos requisitos de acesso à Internet.
Especificar buckets para usar com o Cloud Storage FUSE
Para especificar um bucket do Cloud Storage a ser ativado em uma VM, use a flag
--experiments. Para especificar vários buckets, use um delimitador de ponto e vírgula (;) entre os nomes.
O formato é o seguinte:
--experiments="gcsfuse_buckets=CONFIG"
Substitua:
CONFIG: uma lista delimitada por ponto e vírgula de
entradas do Cloud Storage, em que cada entrada é uma das seguintes opções:
BUCKET_NAME: o nome de um bucket do Cloud Storage.
Por exemplo, dataflow-samples. Se você omitir o modo, o bucket será tratado como somente leitura.
BUCKET_NAME:MODE: um nome de bucket do Cloud Storage e o modo associado, em que MODE é ro (somente leitura) ou rw (leitura e gravação).
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-18 UTC."],[],[],null,["# Process ML data using Dataflow and Cloud Storage FUSE\n\nThis page describes how to use\n[Cloud Storage FUSE](/storage/docs/cloud-storage-fuse/overview) with Dataflow\nto process datasets for machine learning (ML) tasks.\n\nWhen working with ML tasks, Dataflow can be used for processing large\ndatasets. However, some common software libraries used for ML, like OpenCV, have\ninput file requirements. They frequently require files to be accessed as if they\nare stored on a local computer's hard drive, rather than from cloud-based\nstorage. This requirement creates difficulties and delays. As a solution,\npipelines can either use special I/O connectors for input or download files onto\nthe Dataflow virtual machines (VMs) before processing. These solutions\nare frequently inefficient.\n\nCloud Storage FUSE provides a way to avoid these inefficient solutions.\nCloud Storage FUSE lets you mount your Cloud Storage buckets onto the\nDataflow VMs. This makes the files in Cloud Storage appear as if they\nare local files. As a result, the ML software can access them directly without\nneeding to download them beforehand.\n\nBenefits\n--------\n\nUsing Cloud Storage FUSE for ML tasks offers the following benefits:\n\n- Input files hosted on Cloud Storage can be accessed in the Dataflow VM using local file system semantics.\n- Because the data is accessed on-demand, the input files don't have to be downloaded beforehand.\n\nSupport and limitations\n-----------------------\n\n- To use Cloud Storage FUSE with Dataflow, you must configure worker VMs with [external IP addresses](/dataflow/docs/guides/routes-firewall#internet_access_for) so that they meet the internet access requirements.\n\nSpecify buckets to use with Cloud Storage FUSE\n----------------------------------------------\n\nTo specify a Cloud Storage bucket to mount to a VM, use the\n[`--experiments`](/dataflow/docs/reference/pipeline-options) flag. To specify\nmultiple buckets, use a semicolon delimiter (`;`) between bucket names.\n\nThe format is as follows: \n\n --experiments=\"gcsfuse_buckets=\u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e\"\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e: a semicolon-delimited list of\n Cloud Storage entries, where each entry is one of the following:\n\n 1. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e: A Cloud Storage bucket name.\n For example, `dataflow-samples`. If you omit the bucket mode, the bucket\n is treated as read-only.\n\n 2. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e`:`\u003cvar translate=\"no\"\u003eMODE\u003c/var\u003e: A\n Cloud Storage bucket name and its associated mode, where `MODE` is\n either `ro` (read-only) or `rw` (read-write).\n\n For example: \n\n --experiments=\"gcsfuse_buckets=read-bucket1;read-bucket2:ro;write-bucket1:rw\"\n\n In this example, specifying the mode assures the following:\n - `gs://read-bucket1` is mounted in read-only mode.\n - `gs://read-bucket2` is mounted in read-only mode.\n - `gs://write-bucket1` is mounted in read-write mode.\n\n Beam pipeline code can access these buckets at\n `/var/opt/google/gcs/`\u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e."]]