Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Wenn Sie einen Cluster erstellen, wird HDFS als Standard-Dateisystem verwendet. Sie können dieses Verhalten überschreiben, indem Sie den StandardFS als Cloud Storage-Bucket festlegen. Standardmäßig erstellt Dataproc auch ein Cloud Storage-Staging und einen temporären Cloud Storage-Bucket in Ihrem Projekt oder verwendet vorhandene von Dataproc erstellte Staging- und temporäre Buckets aus vorherigen Anfragen zur Clustererstellung wieder.
Staging-Bucket: Wird zum Staging von Clusterjob-Abhängigkeiten, Job-Treiberausgabe und Clusterkonfigurationsdateien verwendet. Es wird auch eine Ausgabe vom gcloud CLI-Befehl gcloud dataproc clusters diagnose empfangen.
Temporärer Bucket: Wird zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark- und MapReduce-Verlaufsdateien verwendet.
Wenn Sie beim Erstellen eines Clusters keinen Staging- oder temporären Bucket angeben, legt Dataproc einen Cloud Storage-Speicherort in den USA, ASIEN oder der EU für die Staging- und temporären Buckets Ihres Clusters fest, entsprechend der Compute Engine-Zone, in der Ihr Cluster bereitgestellt wird. Danach werden diese Buckets auf Projektebene pro Speicherort erstellt und verwaltet.
Von Dataproc erstellte Staging- und temporäre Buckets werden von Clustern in derselben Region gemeinsam genutzt und mit einer Aufbewahrungsdauer für das vorläufige Löschen von 0 Sekunden erstellt.
Der temporäre Bucket enthält kurzlebige Daten und hat eine TTL von 90 Tagen.
Der Staging-Bucket, der Konfigurationsdaten und Abhängigkeitsdateien enthalten kann, die von mehreren Clustern benötigt werden, hat keine TTL. Sie können jedoch eine Lebenszyklusregel auf Ihre Abhängigkeitsdateien anwenden (Dateien mit der Dateinamenerweiterung „.jar“ im Staging-Bucket-Ordner), um das Entfernen Ihrer Abhängigkeitsdateien zu planen, wenn sie von Ihren Clustern nicht mehr benötigt werden.
Eigene Staging- und temporäre Buckets erstellen
Anstatt auf die Erstellung eines standardmäßigen Staging- und temporären Buckets zu warten, können Sie vorhandene Cloud Storage-Buckets angeben, die Dataproc als Staging- und temporären Bucket Ihres Clusters verwendet.
gcloud-Befehl
Führen Sie den Befehl gcloud dataproc clusters create mit den Flags --bucket und/oder --temp-bucket lokal in einem Terminalfenster oder in Cloud Shell aus, um den Staging- und/oder temporären Bucket Ihres Clusters anzugeben.
Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Wählen Sie das Feld „Cluster anpassen“ aus und geben Sie dann mit dem Feld „Dateispeicher“ den Staging-Bucket des Clusters an oder wählen Sie ihn aus.
Hinweis: Derzeit wird die Angabe eines temporären Buckets mithilfe der Google Cloud Console nicht unterstützt.
Dataproc verwendet eine definierte Ordnerstruktur für Cloud Storage-Buckets, die Clustern zugeordnet sind. Dataproc unterstützt auch das Hinzufügen weiterer Cluster zu einem Cloud Storage-Bucket. Zum Speichern von Job-Treiberausgaben in Cloud Storage wird folgende Ordnerstruktur verwendet:
cloud-storage-bucket-name
- google-cloud-dataproc-metainfo
- list of cluster IDs
- list of job IDs
- list of output logs for a job
Sie können mit dem gcloud-Befehlszeilentool, der Dataproc API oder derGoogle Cloud -Konsole den Namen des Staging- und des temporären Buckets eines Clusters auflisten.
Console
\Rufen Sie in der Google Cloud Console auf der Dataproc-Seite Cluster die Clusterdetails auf, einschließlich des Namens des Staging-Buckets des Clusters.
Filtern Sie auf der Seite Google Cloud Console Cloud Storage-Browser Ergebnisse, die „dataproc-temp-“ enthalten.
gcloud-Befehl
Führen Sie den gcloud dataproc clusters describe-Befehl lokal in einem Terminalfenster oder in Cloud Shell aus.
Die mit dem Cluster verknüpften Staging- und temporären Buckets werden in der Ausgabe aufgeführt.
Sie können core:fs.defaultFS auf einen Bucket-Speicherort in Cloud Storage (gs://defaultFS-bucket-name) festlegen, um Cloud Storage als Standarddateisystem festzulegen. Dadurch wird auch core:fs.gs.reported.permissions festgelegt, die vom Cloud Storage-Connector zurückgegebene Berechtigung für alle Dateien auf 777.
Wenn Cloud Storage nicht als Standarddateisystem festgelegt ist, wird HDFS verwendet und das Attribut core:fs.gs.reported.permissions gibt den Standardwert 700 zurück.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-08-22 (UTC)."],[[["\u003cp\u003eDataproc uses HDFS as the default filesystem when creating a cluster, but you can override this by setting a Cloud Storage bucket as the defaultFS.\u003c/p\u003e\n"],["\u003cp\u003eDataproc creates or reuses Cloud Storage staging and temp buckets for clusters, with the staging bucket storing job dependencies and the temp bucket storing ephemeral data.\u003c/p\u003e\n"],["\u003cp\u003eUsers can specify their own existing Cloud Storage buckets for staging and temp instead of relying on Dataproc's default creation, which will allow for more control over data storage.\u003c/p\u003e\n"],["\u003cp\u003eYou can use the gcloud CLI, REST API, or the Google Cloud console to define and also list the names of the staging and temp buckets associated with your cluster.\u003c/p\u003e\n"],["\u003cp\u003eWhen using Assured Workloads for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within that specific environment.\u003c/p\u003e\n"]]],[],null,["# Dataproc staging and temp buckets\n\nWhen you create a cluster, HDFS is used as the default filesystem. You can\noverride this behavior by setting the defaultFS as a Cloud Storage [bucket](/storage/docs/buckets). By\ndefault, Dataproc also creates a Cloud Storage staging and a\nCloud Storage temp bucket in your project or reuses existing\nDataproc-created staging and temp buckets from previous cluster\ncreation requests.\n\n- Staging bucket: Used to stage cluster job dependencies,\n [job driver output](/dataproc/docs/guides/dataproc-job-output),\n and cluster config files. Also receives output from\n [Snapshot diagnostic data collection](/dataproc/docs/support/diagnose-clusters#snapshot_diagnostic_data_collection).\n\n- Temp bucket: Used to store ephemeral cluster and jobs data,\n such as Spark and MapReduce history files. Also stores\n [checkpoint diagnostic data](/dataproc/docs/support/diagnose-clusters#checkpoint_diagnostic_data_collection)\n collected during the lifecycle of a cluster.\n\nIf you do not specify a staging or temp bucket when you create a cluster,\nDataproc sets a [Cloud Storage location in US, ASIA,\nor EU](/storage/docs/locations#location-mr) for your cluster's staging and temp buckets\naccording to the Compute Engine zone where your cluster is deployed,\nand then creates and manages these project-level, per-location buckets.\nDataproc-created staging and temp buckets are\nshared among clusters in the same region, and are created with a\nCloud Storage [soft delete retention](/storage/docs/soft-delete#retention-duration)\nduration set to 0 seconds.\n\nThe temp bucket contains ephemeral data, and has a TTL of 90 days.\nThe staging bucket, which can contain configuration data\nand dependency files needed by multiple clusters,\ndoes not have a TTL. However, you can [apply a lifecycle rule to\nyour dependency files](/storage/docs/lifecycle#matchesprefix-suffix)\n(files with a \".jar\" filename extension located in the staging bucket folder)\nto schedule the removal of your dependency files when they are no longer\nneeded by your clusters.\n| To locate the default Dataproc staging and temp buckets using the Google Cloud console **[Cloud Storage Browser](https://console.cloud.google.com/storage/browser)**, filter results using the \"dataproc-staging-\" and \"dataproc-temp-\" prefixes.\n\nCreate your own staging and temp buckets\n----------------------------------------\n\nInstead of relying on the creation of a default\nstaging and temp bucket, you can specify existing Cloud Storage buckets that\nDataproc will use as your cluster's staging and temp bucket.\n**Note:** When you use an [Assured Workloads environment](/assured-workloads/docs/deploy-resource) for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within the Assured Workloads environment. \n\n### gcloud command\n\nRun the `gcloud dataproc clusters create` command with the\n[`--bucket`](/sdk/gcloud/reference/dataproc/clusters/create#--bucket)\nand/or\n[`--temp-bucket`](/sdk/gcloud/reference/dataproc/clusters/create#--temp-bucket)\nflags locally in a terminal window or in\n[Cloud Shell](https://console.cloud.google.com/?cloudshell=true)\nto specify your cluster's staging and/or temp bucket. \n\n```\ngcloud dataproc clusters create cluster-name \\\n --region=region \\\n --bucket=bucket-name \\\n --temp-bucket=bucket-name \\\n other args ...\n```\n\n### REST API\n\nUse the [`ClusterConfig.configBucket`](/dataproc/docs/reference/rest/v1/ClusterConfig#FIELDS.config_bucket) and\n[`ClusterConfig.tempBucket`](/dataproc/docs/reference/rest/v1/ClusterConfig#FIELDS.temp_bucket)\nfields\nin a [clusters.create](/dataproc/docs/reference/rest/v1/projects.regions.clusters/create)\nrequest to specify your cluster's staging and temp buckets.\n\n### Console\n\nIn the Google Cloud console, open the Dataproc\n[Create a cluster](https://console.cloud.google.com/dataproc/clustersAdd)\npage. Select the Customize cluster panel, then\nuse the File storage field to specify or select the cluster's staging\nbucket.\n\nNote: Currently, specifying a temp bucket using the Google Cloud console\nis not supported.\n\nDataproc uses a defined folder structure for Cloud Storage buckets\nattached to clusters. Dataproc also supports attaching more than one\ncluster to a Cloud Storage bucket. The folder structure used for saving job\ndriver output in Cloud Storage is: \n\n```\ncloud-storage-bucket-name\n - google-cloud-dataproc-metainfo\n - list of cluster IDs\n - list of job IDs\n - list of output logs for a job\n```\n\nYou can use the `gcloud` command line tool, Dataproc API, or\nGoogle Cloud console to list the name of a cluster's staging and temp buckets. \n\n### Console\n\n- \\\\View cluster details, which includeas the name of the cluster's staging bucket, on the Dataproc [Clusters](https://console.cloud.google.com/project/_/dataproc/clusters) page in the Google Cloud console.\n- On the Google Cloud console **[Cloud Storage Browser](https://console.cloud.google.com/storage/browser)** page, filter results that contain \"dataproc-temp-\".\n\n### gcloud command\n\nRun the\n[`gcloud dataproc clusters describe`](/sdk/gcloud/reference/dataproc/clusters/describe)\ncommand locally in a terminal window or in\n[Cloud Shell](https://console.cloud.google.com/?cloudshell=true).\nThe staging and temp buckets associated with your cluster are listed in the\noutput. \n\n```\ngcloud dataproc clusters describe cluster-name \\\n --region=region \\\n...\nclusterName: cluster-name\nclusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...\nconfig:\n configBucket: dataproc-...\n ...\n tempBucket: dataproc-temp...\n```\n\n### REST API\n\nCall [clusters.get](/dataproc/docs/reference/rest/v1/projects.regions.clusters/get)\nto list the cluster details, including the name of the cluster's staging and temp buckets. \n\n```\n{\n \"projectId\": \"vigilant-sunup-163401\",\n \"clusterName\": \"cluster-name\",\n \"config\": {\n \"configBucket\": \"dataproc-...\",\n...\n \"tempBucket\": \"dataproc-temp-...\",\n}\n```\n\ndefaultFS\n---------\n\nYou can set `core:fs.defaultFS` to a bucket location in Cloud Storage (`gs://`\u003cvar translate=\"no\"\u003edefaultFS-bucket-name\u003c/var\u003e) to set Cloud Storage as the default filesystem. This also sets `core:fs.gs.reported.permissions`, the reported permission returned by the Cloud Storage connector for all files, to `777`.\n| **Note:** When you use an [Assured Workloads environment](/assured-workloads/docs/deploy-resource) for regulatory compliance, the cluster, VPC network, and Cloud Storage buckets must be contained within the Assured Workloads environment.\n\nIf Cloud Storage is not set as the default filesystem, HDFS will be used, and the `core:fs.gs.reported.permissions` property will return `700`, the default value. \n\n```\ngcloud dataproc clusters create cluster-name \\\n --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \\\n --region=region \\\n --bucket=staging-bucket-name \\\n --temp-bucket=temp-bucket-name \\\n other args ...\n```\n\n\u003cbr /\u003e\n\n| **Note:** Currently, console display of the defaultFS bucket is not supported."]]