Dataflow – Preise
Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.
Informationen dazu, wie Sie mit einer dreijährigen Zusicherung 40% oder mit einer einjährigen Zusicherung 20% sparen können, finden Sie auf unserer Seite zu Rabatten für zugesicherte Nutzung.
Übersicht
Die Dataflow-Nutzung wird für die von Ihren Jobs verwendeten Ressourcen abgerechnet. Je nach verwendetem Preismodell werden Ressourcen unterschiedlich gemessen und abgerechnet.
| Dataflow-Rechenressourcen | Dataflow Prime-Rechenressourcen |
|
Data Compute Units (DCUs) (Batch- und Streamingdaten) |
Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, umfassen nichtflüchtige Speicher, GPUs und Snapshots.
Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Dienste, die mit Dataflow verwendet werden, sind unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.
Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung von Dataflow erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. 30 Minuten entsprechen beispielsweise 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.
Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.
Dataflow-Rechenressourcen
Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:
- Worker-CPU und ‑Arbeitsspeicher
- Von Dataflow Shuffle verarbeitete Daten für Batch-Arbeitslasten
- Streaming Engine-Recheneinheiten
- Verarbeitete Streaming Engine-Daten
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.
Worker-CPU und ‑Arbeitsspeicher
Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.
Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:
- CPU
- Arbeitsspeicher
Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.
Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.
Außerdem können Sie Pipeline-Optionen verwenden, um die Standardeinstellungen der Ressourcen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben, die jedem Worker zugewiesen sind und GPUs verwenden.
FlexRS
Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.
Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% auf die CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.
Verarbeitete Dataflow Shuffle-Daten
Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle. Es verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Weitere Informationen finden Sie unter Dataflow Shuffle.
Dataflow Shuffle wird nach der Menge der Daten abgerechnet, die während des Shuffles verarbeitet werden.
Streaming Engine-Preise
Bei Streaming-Pipelines verschiebt die Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Backend von Dataflow. Weitere Informationen finden Sie unter Streaming Engine.
Streaming Engine-Recheneinheiten
Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow misst die Streaming Engine-Ressourcen, die von jedem Job verwendet werden, und rechnet dann die Gesamtzahl der von diesem Job verwendeten Ressourcen ab. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für Ihren Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Bei der ressourcenbasierten Abrechnung werden bestehende Rabatte automatisch angewendet.
Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die von jedem Job insgesamt genutzten Ressourcen in Rechnung gestellt. Dabei wird jedoch die SKU Data Compute Unit (DCU) anstelle der SKU Streaming Engine Compute Unit verwendet.
Verarbeitete Streaming Engine-Daten (Legacy)
Dataflow unterstützt weiterhin die Abrechnung nach verarbeiteten Daten. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs über die Abrechnung nach verarbeiteten Daten abgerechnet.
Die Abrechnung der Datenverarbeitung in der Streaming Engine basiert auf der Menge der verarbeiteten Streamingdaten. Diese hängt von den folgenden Faktoren ab:
- Die Menge der in Ihre Streamingpipeline aufgenommenen Daten
- Die Komplexität der Pipeline
- Anzahl der Pipelinephasen mit Shuffle-Vorgang oder mit zustandsorientierten DoFns
Beispiele für verarbeitete Byte:
- Eingabeflüsse aus Datenquellen
- Datenflüsse von einer zusammengeführten Pipeline-Phase zu einer anderen zusammengeführten Phase
- Datenflüsse, die in einem benutzerdefinierten Status erhalten bleiben oder für das Windowing verwendet werden
- Ausgabemeldungen an Datensenken wie Pub/Sub oder BigQuery
Preise für Dataflow-Rechenressourcen – Batch und FlexRS
Die folgende Tabelle enthält Preisinformationen für Worker-Ressourcen und verarbeitete Shuffle-Daten für Batch- und FlexRS-Jobs.
1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird
2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern
Dataflow-Preise für Rechenressourcen – Streaming
Die folgende Tabelle enthält Preisinformationen zu Worker-Ressourcen, verarbeiteten Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.
3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird. Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
4 Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.
5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffles verarbeiteten Daten nicht in Rechnung gestellt.
Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten
Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der Messwert abgerechnete verarbeitete Shuffle-Daten geringer ist als der Messwert insgesamt verarbeitete Shuffle-Daten.
In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:
| Verarbeitete Dataflow Shuffle-Daten | Rechnungsgutschrift |
| Erste 250 GB | 75 % |
| Nächste 4.870 GB | 50 % |
| Weitere Daten über 5.120 GB (5 TB) | keine |
Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preise für Rechenressourcen in Dataflow Prime
Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut und Verbesserungen bei der Ressourcennutzung und verteilten Diagnosen bietet.
Die von einem Dataflow Prime-Job genutzten Rechenressourcen werden nach der Anzahl der Data Compute Units (DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie nichtflüchtige Speicher, GPUs und Snapshots, werden separat in Rechnung gestellt.
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.
Data Compute Unit
Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, mit der die von Ihren Jobs genutzten Rechenressourcen verfolgt werden. Zu den von DCUs erfassten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung im Vergleich zu Jobs, die weniger Ressourcen verbrauchen, höher. Eine DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 1-vCPU-4-GB-Worker ausgeführt wird.
Abrechnung von Data Compute Units
Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU variiert je nachdem, ob Sie einen Batch-Job oder einen Streaming-Job haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Gesamtkosten der verwendeten Ressourcen in Rechnung gestellt, nicht die verarbeiteten Byte.
Nutzung der Data Compute Unit optimieren
Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:
- Arbeitsspeicherverbrauch reduzieren
- Reduzieren Sie die Menge der nach dem Zufallsprinzip verarbeiteten Daten mithilfe von Filtern, Kombinatoren und effizienten Codern.
Sie können die Optimierungen über die Schnittstelle Dataflow-Monitoring-Oberfläche und Ausführungsdetails identifizieren.
Wie unterscheiden sich die Preise für Dataflow Prime von den Preisen für Dataflow?
In Dataflow werden die heterogenen Ressourcen in Rechnung gestellt, die von den Jobs verbraucht werden: vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.
Data Compute Units fassen alle Ressourcen außer dem Speicher in einer einzigen Abrechnungseinheit zusammen. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs in Rechnung gestellt, je nach Jobtyp (Batch oder Streaming). Weitere Informationen finden Sie unter Dataflow Prime verwenden.
Was passiert mit meinen bestehenden Jobs, die das Dataflow-Preismodell verwenden?
Ihre bestehenden Batch- und Streamingjobs werden weiterhin nach dem Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs auf Dataflow Prime umstellen, wird das Dataflow Prime-Preismodell verwendet. Ihnen werden dann die Persistent Disk-Ressourcen und die verbrauchten DCUs in Rechnung gestellt.
Weitere Dataflow-Ressourcen
Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.
Preise für Speicherressourcen
Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet. Sie können Pipeline-Optionen verwenden, um die Standardgröße oder den Standardtyp des Laufwerks zu ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat in Rechnung. Die Preise sind in der folgenden Tabelle aufgeführt.
Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen Compute Engine-VM zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
Für Jobs, die Streaming Engine verwenden, werden 30 GB-Bootlaufwerke verwendet. Für Jobs, die Dataflow Shuffle verwenden, werden 25 GB-Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße der nichtflüchtigen Speicher 250 GB im Batchmodus und 400 GB im Streamingmodus.
Die Compute Engine-Nutzung richtet sich nach der durchschnittlichen Anzahl von Workern. Die Nutzung nichtflüchtiger Speicher basiert hingegen auf dem exakten Wert von --maxNumWorkers. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker mit der gleichen Anzahl von Laufwerken verbunden ist.
Preise für GPU-Ressourcen
GPU-Ressourcen werden für Streaming- und Batch-Jobs zum selben Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie in der Compute Engine-Dokumentation unter Verfügbarkeit: GPU-Regionen und ‑Zonen.
Snapshots
Sie können mit Snapshots den Zustand Ihrer Pipeline speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streaming-Pipelines zu gewährleisten. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt wiederum von folgenden Faktoren ab:
- Die Menge der in Ihre Streamingpipeline aufgenommenen Daten
- Ihre Fensterlogik
- Die Anzahl der Pipelinephasen
Sie können einen Snapshot Ihres Streamingjobs mit der Dataflow Console oder der Google Cloud CLI erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.
Snapshot-Preise
Confidential VM
Confidential VM für Dataflow verschlüsselt die Daten, die auf Worker-Compute Engine-VMs verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.
Die Verwendung von Confidential VMs für Dataflow verursacht zusätzliche Pauschalkosten pro vCPU und GB.
Confidential VM - Preise
Die Preise sind global und ändern sich nicht je nach Google Cloud Region.
Nicht-Dataflow-Ressourcen
Neben der Dataflow-Nutzung kann ein Job weitere Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:
-
Dataflow-Jobs speichern temporäre Daten während der Pipelineausführung in Cloud Storage. Damit Ihnen keine unnötigen Speicherkosten entstehen, sollten Sie die Funktion für vorläufiges Löschen für Buckets, die von den Dataflow-Jobs als temporärer Speicher verwendet werden, deaktivieren. Weitere Informationen finden Sie unter Vorläufiges Löschen deaktivieren.
-
Sie können Logs an andere Ziele weiterleiten oder Logs von der Aufnahme ausschließen. Informationen zum Optimieren des Logvolumens für Ihre Dataflow-Jobs finden Sie unter Dataflow-Logvolumen steuern.
Ressourcennutzung ansehen
Sie können sämtliche vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, die einem Job zugeordnet sind, im Bereich Jobinfo unter Ressourcenmesswerte einsehen. Die folgenden Messwerte finden Sie auf der Monitoring-Oberfläche von Dataflow:
- vCPU-Gesamtzeit
- Gesamte Arbeitsspeichernutzungszeit
- Gesamte Nutzungsdauer von Persistent Disks
- Gesamte verarbeitete Streamingdaten
- Gesamte verarbeitete Shuffle-Daten
- Verarbeitete abrechenbare Shuffle-Daten
Anhand des Messwerts Verarbeitete Shuffle-Daten insgesamt können Sie die Leistung Ihrer Pipeline bewerten und anhand des Messwerts Abrechenbare verarbeitete Shuffle-Daten die Kosten des Dataflow-Jobs ermitteln.
Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job verbrauchten DCUs im Bereich Jobinfo unter Ressourcenmesswerte aufrufen.
Preisrechner
Mit dem Google Cloud Preisrechner können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Nächste Schritte
- Lesen Sie die Dataflow-Dokumentation.
- Erste Schritte mit Dataflow
- Preisrechner ausprobieren
- Informationen zu Dataflow-Lösungen und -Anwendungsfällen