Diese Seite wurde von der Cloud Translation API übersetzt.

Buckets mit aktiviertem hierarchischen Namespace für Hadoop-Arbeitslasten verwenden

Auf dieser Seite wird beschrieben, wie Buckets mit hierarchischem Namespace für Hadoop-Arbeitslasten verwendet werden.

Übersicht

Wenn Sie einen Cloud Storage-Bucket mit hierarchischem Namespace verwenden, können Sie den Cloud Storage-Connector so konfigurieren, dass der Vorgang Ordner umbenennen für Arbeitslasten wie Hadoop, Spark oder Hive verwendet wird.

In einem Bucket ohne hierarchischen Namespace umfasst ein Umbenennungsvorgang in Hadoop, Spark und Hive mehrere Jobs zum Kopieren und Löschen von Objekten, was sich auf Leistung und Konsistenz auswirkt. Wenn Sie einen Ordner mit dem Cloud Storage-Connector umbenennen, wird die Leistung optimiert und für Konsistenz bei der Verarbeitung von Ordnern mit einer großen Anzahl von Objekten gesorgt.

Hinweise

Wenn Sie Funktionen von Buckets mit hierarchischem Namespace verwenden möchten, verwenden Sie die folgenden Cloud Storage-Connector-Versionen:

2.2.23 oder höher (wenn Sie Version 2.x.x verwenden)
3.0.1 oder höher (wenn Sie Version 3.x.x verwenden)

Ältere Connector-Versionen (3.0.0 und älter als 2.2.23) haben Einschränkungen. Weitere Informationen zu den Einschränkungen finden Sie unter Kompatibilität mit Cloud Storage-Connector-Version 3.0.0 oder Versionen älter als 2.2.23.

Cloud Storage-Connector für einen Cluster aktivieren

In diesem Abschnitt wird beschrieben, wie Sie den Cloud Storage-Connector in einem Dataproc-Cluster und einem selbst verwalteten Hadoop-Cluster aktivieren.

Dataproc

Sie können mit der Google Cloud CLI einen Dataproc-Cluster erstellen und den Cloud Storage-Connector für die Ordnervorgänge aktivieren.

Erstellen Sie mit dem folgenden Befehl einen Dataproc-Cluster:
```
  gcloud dataproc clusters create CLUSTER_NAME
  --properties=core:fs.gs.hierarchical.namespace.folders.enable=true,
  core:fs.gs.http.read-timeout=30000
  
```
Dabei gilt:
- CLUSTER_NAME ist der Name des Clusters. Beispiel: my-cluster
- Mit fs.gs.hierarchical.namespace.folders.enable wird der hierarchische Namespace für einen Bucket aktiviert.
- fs.gs.http.read-timeout ist die maximal zulässige Zeit in Millisekunden, um Daten aus einer bestehenden Verbindung zu lesen. Diese Einstellung ist optional.
  
  Hinweis :Wenn Sie den Cloud Storage-Connector Version 3.0.0 oder eine Version vor 2.2.23 verwenden, wird die Konfigurationseinstellung fs.gs.hierarchical.namespace.folders.enable nicht unterstützt. Wenn sie enthalten ist, führt dies zu einem Fehler.

Selbstverwaltetes Hadoop

Sie können den Cloud Storage-Connector in Ihrem selbst verwalteten Hadoop-Cluster aktivieren, um die Ordnervorgänge auszuführen.

Fügen Sie der Konfigurationsdatei „core-site.xml“ Folgendes hinzu:
```
    <property>
      <name>fs.gs.hierarchical.namespace.folders.enable</name>
      <value>true</value>
    </property>
    <property>
      <name>fs.gs.http.read-timeout</name>
      <value>30000</value>
    </property>
  
```
Dabei gilt:
- Mit fs.gs.hierarchical.namespace.folders.enable wird der hierarchische Namespace für einen Bucket aktiviert.
- fs.gs.http.read-timeout ist die maximal zulässige Zeit in Millisekunden, um Daten aus einer bestehenden Verbindung zu lesen. Diese Einstellung ist optional.
  
  Hinweis :Wenn Sie den Cloud Storage-Connector Version 3.0.0 oder eine Version vor 2.2.23 verwenden, wird die Konfigurationseinstellung fs.gs.hierarchical.namespace.folders.enable nicht unterstützt. Wenn sie enthalten ist, führt dies zu einem Fehler.

Kompatibilität mit Cloud Storage-Connector Version 3.0.0 oder Versionen vor 2.2.23

Die Verwendung der Cloud Storage-Connector-Version 3.0.0 oder von Versionen älter als 2.2.23 oder das Deaktivieren von Ordnervorgängen für den hierarchischen Namespace kann zu den folgenden Einschränkungen führen:

Ineffiziente Ordnerumbenennung: Ordnerumbenennungsvorgänge in Hadoop werden mit Kopier- und Löschvorgängen auf Objektebene ausgeführt, die langsamer und weniger effizient sind als der dedizierte rename folder-Vorgang.
Anzahl leerer Ordner: Ordner werden nicht automatisch gelöscht, was dazu führt, dass sich leere Ordner in Ihrem Bucket ansammeln. Die Ansammlung leerer Ordner kann folgende Auswirkungen haben:
- Erhöhen die Speicherkosten, wenn sie nicht ausdrücklich gelöscht werden.
- Die Listenvorgänge verlangsamen und das Risiko von Zeitüberschreitungen bei Listenvorgängen erhöhen.
  
  Hinweis: Um das Risiko von Zeitüberschreitungen bei Listenvorgängen zu verringern, konfigurieren Sie den Zeitlimitwert für fs.gs.http.read-timeout auf 30000 Millisekunden. Eine Anleitung zum Konfigurieren der Zeitüberschreitungseinstellungen finden Sie je nach verwendeter Lösung unter Dataproc oder Selbstverwaltetes Hadoop.
Kompatibilitätsprobleme: Wenn Sie ältere und neuere Connectorversionen verwenden oder Ordnervorgänge aktivieren und deaktivieren, kann das beim Umbenennen von Ordnern zu Kompatibilitätsproblemen führen. Stellen Sie sich das folgende Szenario vor, bei dem eine Kombination aus Connector-Versionen verwendet wird:
1. Verwenden Sie die Cloud Storage-Connector-Version vor 2.2.23, um die folgenden Aufgaben auszuführen:
  1. Objekte im Ordner foo/ schreiben.
  2. Benennen Sie den Ordner foo/ in bar/ um. Beim Umbenennen werden die Objekte unter foo/ kopiert und gelöscht, der leere Ordner foo/ wird jedoch nicht gelöscht.
2. Verwenden Sie den Cloud Storage-Connector Version 2.2.23 mit aktivierten Ordnervorgaben, um den Ordner bar/ in foo/ umzubenennen.
Die Connector-Version 2.2.23 mit aktiviertem Ordnervorgang erkennt den vorhandenen Ordner foo/, wodurch der Umbenennungsvorgang fehlschlägt. In der älteren Connector-Version wurde der Ordner foo/ nicht gelöscht, da der Ordnervorgang deaktiviert war.

Nächste Schritte

Überzeugen Sie sich selbst

Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit von Cloud Storage in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Cloud Storage kostenlos testen