Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Informationen dazu, wie Sie mit einer dreijährigen Zusicherung 40% oder mit einer einjährigen Zusicherung 20% sparen können, finden Sie auf unserer Seite zu Rabatten für zugesicherte Nutzung.

Übersicht

Die Dataflow-Nutzung wird für die von Ihren Jobs verwendeten Ressourcen abgerechnet. Je nach verwendetem Preismodell werden Ressourcen unterschiedlich gemessen und abgerechnet.

Dataflow-Rechenressourcen Dataflow Prime-Rechenressourcen
Data Compute Units (DCUs)
(Batch- und Streamingdaten)

Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, umfassen nichtflüchtige Speicher, GPUs und Snapshots.

Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Dienste, die mit Dataflow verwendet werden, sind unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung von Dataflow erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. 30 Minuten entsprechen beispielsweise 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Dataflow-Rechenressourcen

Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

Worker-CPU und ‑Arbeitsspeicher

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

  • CPU
  • Arbeitsspeicher

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Außerdem können Sie Pipeline-Optionen verwenden, um die Standardeinstellungen der Ressourcen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben, die jedem Worker zugewiesen sind und GPUs verwenden.

FlexRS

Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.

Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% auf die CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Verarbeitete Dataflow Shuffle-Daten

Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle. Es verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Weitere Informationen finden Sie unter Dataflow Shuffle.

Dataflow Shuffle wird nach der Menge der Daten abgerechnet, die während des Shuffles verarbeitet werden.

Streaming Engine-Preise

Bei Streaming-Pipelines verschiebt die Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Backend von Dataflow. Weitere Informationen finden Sie unter Streaming Engine.

Streaming Engine-Recheneinheiten

Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow misst die Streaming Engine-Ressourcen, die von jedem Job verwendet werden, und rechnet dann die Gesamtzahl der von diesem Job verwendeten Ressourcen ab. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für Ihren Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Bei der ressourcenbasierten Abrechnung werden bestehende Rabatte automatisch angewendet.

Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die von jedem Job insgesamt genutzten Ressourcen in Rechnung gestellt. Dabei wird jedoch die SKU Data Compute Unit (DCU) anstelle der SKU Streaming Engine Compute Unit verwendet.

Verarbeitete Streaming Engine-Daten (Legacy)

Dataflow unterstützt weiterhin die Abrechnung nach verarbeiteten Daten. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs über die Abrechnung nach verarbeiteten Daten abgerechnet.

Die Abrechnung der Datenverarbeitung in der Streaming Engine basiert auf der Menge der verarbeiteten Streamingdaten. Diese hängt von den folgenden Faktoren ab:

  • Die Menge der in Ihre Streamingpipeline aufgenommenen Daten
  • Die Komplexität der Pipeline
  • Anzahl der Pipelinephasen mit Shuffle-Vorgang oder mit zustandsorientierten DoFns

Beispiele für verarbeitete Byte:

  • Eingabeflüsse aus Datenquellen
  • Datenflüsse von einer zusammengeführten Pipeline-Phase zu einer anderen zusammengeführten Phase
  • Datenflüsse, die in einem benutzerdefinierten Status erhalten bleiben oder für das Windowing verwendet werden
  • Ausgabemeldungen an Datensenken wie Pub/Sub oder BigQuery

Preise für Dataflow-Rechenressourcen – Batch und FlexRS

Die folgende Tabelle enthält Preisinformationen für Worker-Ressourcen und verarbeitete Shuffle-Daten für Batch- und FlexRS-Jobs.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

Dataflow-Preise für Rechenressourcen – Streaming

Die folgende Tabelle enthält Preisinformationen zu Worker-Ressourcen, verarbeiteten Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird. Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

4 Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.

5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffles verarbeiteten Daten nicht in Rechnung gestellt.

Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten

Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der Messwert abgerechnete verarbeitete Shuffle-Daten geringer ist als der Messwert insgesamt verarbeitete Shuffle-Daten.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

Verarbeitete Dataflow Shuffle-Daten Rechnungsgutschrift
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB) keine

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Preise für Rechenressourcen in Dataflow Prime

Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut und Verbesserungen bei der Ressourcennutzung und verteilten Diagnosen bietet.

Die von einem Dataflow Prime-Job genutzten Rechenressourcen werden nach der Anzahl der Data Compute Units (DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie nichtflüchtige Speicher, GPUs und Snapshots, werden separat in Rechnung gestellt.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

Data Compute Unit

Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, mit der die von Ihren Jobs genutzten Rechenressourcen verfolgt werden. Zu den von DCUs erfassten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung im Vergleich zu Jobs, die weniger Ressourcen verbrauchen, höher. Eine DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 1-vCPU-4-GB-Worker ausgeführt wird.

Abrechnung von Data Compute Units

Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU variiert je nachdem, ob Sie einen Batch-Job oder einen Streaming-Job haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Gesamtkosten der verwendeten Ressourcen in Rechnung gestellt, nicht die verarbeiteten Byte.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Nutzung der Data Compute Unit optimieren

Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:

  • Arbeitsspeicherverbrauch reduzieren
  • Reduzieren Sie die Menge der nach dem Zufallsprinzip verarbeiteten Daten mithilfe von Filtern, Kombinatoren und effizienten Codern.

Sie können die Optimierungen über die Schnittstelle Dataflow-Monitoring-Oberfläche und Ausführungsdetails identifizieren.

Wie unterscheiden sich die Preise für Dataflow Prime von den Preisen für Dataflow?

In Dataflow werden die heterogenen Ressourcen in Rechnung gestellt, die von den Jobs verbraucht werden: vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.

Data Compute Units fassen alle Ressourcen außer dem Speicher in einer einzigen Abrechnungseinheit zusammen. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs in Rechnung gestellt, je nach Jobtyp (Batch oder Streaming). Weitere Informationen finden Sie unter Dataflow Prime verwenden.

Was passiert mit meinen bestehenden Jobs, die das Dataflow-Preismodell verwenden?

Ihre bestehenden Batch- und Streamingjobs werden weiterhin nach dem Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs auf Dataflow Prime umstellen, wird das Dataflow Prime-Preismodell verwendet. Ihnen werden dann die Persistent Disk-Ressourcen und die verbrauchten DCUs in Rechnung gestellt.

Weitere Dataflow-Ressourcen

Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.

Preise für Speicherressourcen

Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet. Sie können Pipeline-Optionen verwenden, um die Standardgröße oder den Standardtyp des Laufwerks zu ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat in Rechnung. Die Preise sind in der folgenden Tabelle aufgeführt.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen Compute Engine-VM zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

Für Jobs, die Streaming Engine verwenden, werden 30 GB-Bootlaufwerke verwendet. Für Jobs, die Dataflow Shuffle verwenden, werden 25 GB-Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße der nichtflüchtigen Speicher 250 GB im Batchmodus und 400 GB im Streamingmodus.

Die Compute Engine-Nutzung richtet sich nach der durchschnittlichen Anzahl von Workern. Die Nutzung nichtflüchtiger Speicher basiert hingegen auf dem exakten Wert von --maxNumWorkers. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker mit der gleichen Anzahl von Laufwerken verbunden ist.

Preise für GPU-Ressourcen

GPU-Ressourcen werden für Streaming- und Batch-Jobs zum selben Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie in der Compute Engine-Dokumentation unter Verfügbarkeit: GPU-Regionen und ‑Zonen.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Snapshots

Sie können mit Snapshots den Zustand Ihrer Pipeline speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streaming-Pipelines zu gewährleisten. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt wiederum von folgenden Faktoren ab:

  • Die Menge der in Ihre Streamingpipeline aufgenommenen Daten
  • Ihre Fensterlogik
  • Die Anzahl der Pipelinephasen

Sie können einen Snapshot Ihres Streamingjobs mit der Dataflow Console oder der Google Cloud CLI erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Snapshot-Preise

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Confidential VM

Confidential VM für Dataflow verschlüsselt die Daten, die auf Worker-Compute Engine-VMs verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.

Die Verwendung von Confidential VMs für Dataflow verursacht zusätzliche Pauschalkosten pro vCPU und GB.

Confidential VM - Preise

Die Preise sind global und ändern sich nicht je nach Google Cloud Region.

Nicht-Dataflow-Ressourcen

Neben der Dataflow-Nutzung kann ein Job weitere Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Ressourcennutzung ansehen

Sie können sämtliche vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, die einem Job zugeordnet sind, im Bereich Jobinfo unter Ressourcenmesswerte einsehen. Die folgenden Messwerte finden Sie auf der Monitoring-Oberfläche von Dataflow:

  • vCPU-Gesamtzeit
  • Gesamte Arbeitsspeichernutzungszeit
  • Gesamte Nutzungsdauer von Persistent Disks
  • Gesamte verarbeitete Streamingdaten
  • Gesamte verarbeitete Shuffle-Daten
  • Verarbeitete abrechenbare Shuffle-Daten

Anhand des Messwerts Verarbeitete Shuffle-Daten insgesamt können Sie die Leistung Ihrer Pipeline bewerten und anhand des Messwerts Abrechenbare verarbeitete Shuffle-Daten die Kosten des Dataflow-Jobs ermitteln.

Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job verbrauchten DCUs im Bereich Jobinfo unter Ressourcenmesswerte aufrufen.

Preisrechner

Mit dem Google Cloud Preisrechner können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Nächste Schritte

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.
Vertrieb kontaktieren