Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Quando você cria um cluster, o HDFS é usado como o sistema de arquivos padrão. É possível
modificar esse comportamento definindo "defaultFS" como um bucket do Cloud Storage. Por
padrão, o Dataproc também cria uma preparação do Cloud Storage e um
bucket temporário do Cloud Storage no projeto, ou reutiliza buckets atuais
de preparação e temporários criados pelo Dataproc a partir de solicitações de criação
de cluster anteriores.
Intervalo de preparação: usado para preparar dependências de jobs de cluster,
saída do driver de jobs
e arquivos de configuração de cluster. Também recebe resultados do comando
gcloud dataproc clusters diagnose
da CLI gcloud.
Bucket temporário: usado para armazenar dados temporários de clusters e jobs,
como os arquivos de histórico do Spark e do MapReduce.
Se você não especificar um bucket de preparo ou temporário ao criar um cluster, o Dataproc definirá um local do Cloud Storage nos EUA, na ÁSIA ou na UE para os buckets de preparo e temporários do cluster de acordo com a zona do Compute Engine em que o cluster é implantado e, em seguida, cria e gerencia esses buckets por projeto.
Os buckets de preparação e temporários criados pelo Dataproc são compartilhados entre clusters na mesma região e são criados com uma duração de retenção de exclusão reversível do Cloud Storage definida como 0 segundo.
O bucket temporário contém dados efêmeros e tem um TTL de 90 dias.
O bucket de preparo, que pode conter dados de configuração
e arquivos de dependência necessários para vários clusters,
não tem um TTL. No entanto, é possível aplicar uma regra de ciclo de vida aos
arquivos de dependência
(arquivos com uma extensão de nome de arquivo ".jar" localizados na pasta do bucket de preparo)
para programar a remoção dos arquivos de dependência quando eles não forem mais
necessários para seus clusters.
Crie seus próprios buckets de preparo e temporários
Em vez de depender da criação de um bucket de
preparo padrão e temporário, especifique os buckets atuais do Cloud Storage que o
Dataproc usará como o bucket de preparo e temporário do cluster.
Comando gcloud
Execute o comando gcloud dataproc clusters create com as
sinalizações --bucket
e/ou
--temp-bucket
localmente em uma janela do terminal ou no
Cloud Shell
para especificar o bucket de preparo e/ou temporário do cluster.
No console do Google Cloud , abra a página
Criar um cluster
do Dataproc. Selecione o painel "Personalizar cluster" e
use o campo "Armazenamento de arquivos" para especificar ou selecionar o bucket de preparo do
cluster.
Observação: no momento, não é possível especificar um bucket temporário usando o console Google Cloud .
O Dataproc usa uma estrutura de pastas definida para os buckets do Cloud Storage anexados aos clusters. O Dataproc também permite anexar mais de um cluster a um bucket do Cloud Storage. A estrutura de pastas usada para salvar a saída do driver do job no Cloud Storage é:
cloud-storage-bucket-name
- google-cloud-dataproc-metainfo
- list of cluster IDs
- list of job IDs
- list of output logs for a job
Use a ferramenta de linha de comando gcloud, a API Dataproc ou o
consoleGoogle Cloud para listar o nome dos buckets temporários e de preparo de um cluster.
Console
\Veja os detalhes do cluster, incluindo o nome do bucket de preparo do cluster, na
página Clusters
do Dataproc no console Google Cloud .
Na página Navegador do Cloud Storage
do console Google Cloud , filtre os resultados que contêm "dataproc-temp-".
Comando gcloud
Execute o comando gcloud dataproc clusters describe localmente em uma janela de terminal ou no Cloud Shell.
Os buckets de preparo e temporários associados ao cluster são listados na
saída.
É possível definir core:fs.defaultFS como um local de bucket no Cloud Storage (gs://defaultFS-bucket-name) para definir o Cloud Storage como o sistema de arquivos padrão. Isso também define core:fs.gs.reported.permissions, a permissão relatada pelo conector do Cloud Storage para todos os arquivos, como 777.
Se o Cloud Storage não estiver definido como o sistema de arquivos padrão, o HDFS será usado, e a propriedade core:fs.gs.reported.permissions retornará 700, o valor padrão.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-22 UTC."],[[["\u003cp\u003eDataproc uses HDFS as the default filesystem when creating a cluster, but you can override this by setting a Cloud Storage bucket as the defaultFS.\u003c/p\u003e\n"],["\u003cp\u003eDataproc creates or reuses Cloud Storage staging and temp buckets for clusters, with the staging bucket storing job dependencies and the temp bucket storing ephemeral data.\u003c/p\u003e\n"],["\u003cp\u003eUsers can specify their own existing Cloud Storage buckets for staging and temp instead of relying on Dataproc's default creation, which will allow for more control over data storage.\u003c/p\u003e\n"],["\u003cp\u003eYou can use the gcloud CLI, REST API, or the Google Cloud console to define and also list the names of the staging and temp buckets associated with your cluster.\u003c/p\u003e\n"],["\u003cp\u003eWhen using Assured Workloads for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within that specific environment.\u003c/p\u003e\n"]]],[],null,["# Dataproc staging and temp buckets\n\nWhen you create a cluster, HDFS is used as the default filesystem. You can\noverride this behavior by setting the defaultFS as a Cloud Storage [bucket](/storage/docs/buckets). By\ndefault, Dataproc also creates a Cloud Storage staging and a\nCloud Storage temp bucket in your project or reuses existing\nDataproc-created staging and temp buckets from previous cluster\ncreation requests.\n\n- Staging bucket: Used to stage cluster job dependencies,\n [job driver output](/dataproc/docs/guides/dataproc-job-output),\n and cluster config files. Also receives output from\n [Snapshot diagnostic data collection](/dataproc/docs/support/diagnose-clusters#snapshot_diagnostic_data_collection).\n\n- Temp bucket: Used to store ephemeral cluster and jobs data,\n such as Spark and MapReduce history files. Also stores\n [checkpoint diagnostic data](/dataproc/docs/support/diagnose-clusters#checkpoint_diagnostic_data_collection)\n collected during the lifecycle of a cluster.\n\nIf you do not specify a staging or temp bucket when you create a cluster,\nDataproc sets a [Cloud Storage location in US, ASIA,\nor EU](/storage/docs/locations#location-mr) for your cluster's staging and temp buckets\naccording to the Compute Engine zone where your cluster is deployed,\nand then creates and manages these project-level, per-location buckets.\nDataproc-created staging and temp buckets are\nshared among clusters in the same region, and are created with a\nCloud Storage [soft delete retention](/storage/docs/soft-delete#retention-duration)\nduration set to 0 seconds.\n\nThe temp bucket contains ephemeral data, and has a TTL of 90 days.\nThe staging bucket, which can contain configuration data\nand dependency files needed by multiple clusters,\ndoes not have a TTL. However, you can [apply a lifecycle rule to\nyour dependency files](/storage/docs/lifecycle#matchesprefix-suffix)\n(files with a \".jar\" filename extension located in the staging bucket folder)\nto schedule the removal of your dependency files when they are no longer\nneeded by your clusters.\n| To locate the default Dataproc staging and temp buckets using the Google Cloud console **[Cloud Storage Browser](https://console.cloud.google.com/storage/browser)**, filter results using the \"dataproc-staging-\" and \"dataproc-temp-\" prefixes.\n\nCreate your own staging and temp buckets\n----------------------------------------\n\nInstead of relying on the creation of a default\nstaging and temp bucket, you can specify existing Cloud Storage buckets that\nDataproc will use as your cluster's staging and temp bucket.\n**Note:** When you use an [Assured Workloads environment](/assured-workloads/docs/deploy-resource) for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within the Assured Workloads environment. \n\n### gcloud command\n\nRun the `gcloud dataproc clusters create` command with the\n[`--bucket`](/sdk/gcloud/reference/dataproc/clusters/create#--bucket)\nand/or\n[`--temp-bucket`](/sdk/gcloud/reference/dataproc/clusters/create#--temp-bucket)\nflags locally in a terminal window or in\n[Cloud Shell](https://console.cloud.google.com/?cloudshell=true)\nto specify your cluster's staging and/or temp bucket. \n\n```\ngcloud dataproc clusters create cluster-name \\\n --region=region \\\n --bucket=bucket-name \\\n --temp-bucket=bucket-name \\\n other args ...\n```\n\n### REST API\n\nUse the [`ClusterConfig.configBucket`](/dataproc/docs/reference/rest/v1/ClusterConfig#FIELDS.config_bucket) and\n[`ClusterConfig.tempBucket`](/dataproc/docs/reference/rest/v1/ClusterConfig#FIELDS.temp_bucket)\nfields\nin a [clusters.create](/dataproc/docs/reference/rest/v1/projects.regions.clusters/create)\nrequest to specify your cluster's staging and temp buckets.\n\n### Console\n\nIn the Google Cloud console, open the Dataproc\n[Create a cluster](https://console.cloud.google.com/dataproc/clustersAdd)\npage. Select the Customize cluster panel, then\nuse the File storage field to specify or select the cluster's staging\nbucket.\n\nNote: Currently, specifying a temp bucket using the Google Cloud console\nis not supported.\n\nDataproc uses a defined folder structure for Cloud Storage buckets\nattached to clusters. Dataproc also supports attaching more than one\ncluster to a Cloud Storage bucket. The folder structure used for saving job\ndriver output in Cloud Storage is: \n\n```\ncloud-storage-bucket-name\n - google-cloud-dataproc-metainfo\n - list of cluster IDs\n - list of job IDs\n - list of output logs for a job\n```\n\nYou can use the `gcloud` command line tool, Dataproc API, or\nGoogle Cloud console to list the name of a cluster's staging and temp buckets. \n\n### Console\n\n- \\\\View cluster details, which includeas the name of the cluster's staging bucket, on the Dataproc [Clusters](https://console.cloud.google.com/project/_/dataproc/clusters) page in the Google Cloud console.\n- On the Google Cloud console **[Cloud Storage Browser](https://console.cloud.google.com/storage/browser)** page, filter results that contain \"dataproc-temp-\".\n\n### gcloud command\n\nRun the\n[`gcloud dataproc clusters describe`](/sdk/gcloud/reference/dataproc/clusters/describe)\ncommand locally in a terminal window or in\n[Cloud Shell](https://console.cloud.google.com/?cloudshell=true).\nThe staging and temp buckets associated with your cluster are listed in the\noutput. \n\n```\ngcloud dataproc clusters describe cluster-name \\\n --region=region \\\n...\nclusterName: cluster-name\nclusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...\nconfig:\n configBucket: dataproc-...\n ...\n tempBucket: dataproc-temp...\n```\n\n### REST API\n\nCall [clusters.get](/dataproc/docs/reference/rest/v1/projects.regions.clusters/get)\nto list the cluster details, including the name of the cluster's staging and temp buckets. \n\n```\n{\n \"projectId\": \"vigilant-sunup-163401\",\n \"clusterName\": \"cluster-name\",\n \"config\": {\n \"configBucket\": \"dataproc-...\",\n...\n \"tempBucket\": \"dataproc-temp-...\",\n}\n```\n\ndefaultFS\n---------\n\nYou can set `core:fs.defaultFS` to a bucket location in Cloud Storage (`gs://`\u003cvar translate=\"no\"\u003edefaultFS-bucket-name\u003c/var\u003e) to set Cloud Storage as the default filesystem. This also sets `core:fs.gs.reported.permissions`, the reported permission returned by the Cloud Storage connector for all files, to `777`.\n| **Note:** When you use an [Assured Workloads environment](/assured-workloads/docs/deploy-resource) for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within the Assured Workloads environment.\n\nIf Cloud Storage is not set as the default filesystem, HDFS will be used, and the `core:fs.gs.reported.permissions` property will return `700`, the default value. \n\n```\ngcloud dataproc clusters create cluster-name \\\n --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \\\n --region=region \\\n --bucket=staging-bucket-name \\\n --temp-bucket=temp-bucket-name \\\n other args ...\n```\n\n\u003cbr /\u003e\n\n| **Note:** Currently, console display of the defaultFS bucket is not supported."]]