Harga Dataflow
Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.
Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, tinjau halaman diskon abonemen (CUD) kami.
Ringkasan
Penggunaan Dataflow dikenai biaya untuk resource yang digunakan oleh tugas Anda. Bergantung pada model harga yang Anda gunakan, resource diukur dan ditagih secara berbeda.
| Resource komputasi Dataflow | Resource komputasi Dataflow Prime |
|
Unit Komputasi Data (DCU) (batch dan streaming) |
Resource Dataflow lain yang dikenai biaya untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.
Resource dari layanan lain dapat digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow dapat mencakup BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging, serta layanan lainnya.
Meskipun tarif harganya adalah per jam, penggunaan Dataflow akan dikenakan biaya setiap kenaikan satu detik per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan untuk penggunaan per detik. Misalnya, 30 menit adalah 0,5 jam. Worker dan tugas dapat menggunakan resource seperti yang dijelaskan di bagian berikut.
Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.
Resource komputasi Dataflow
Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:
- CPU dan memori worker
- Data Dataflow Shuffle yang diproses untuk workload batch
- Unit Komputasi Streaming Engine
- Data Streaming Engine yang diproses
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
CPU dan memori worker
Setiap tugas Dataflow menggunakan setidaknya satu worker Dataflow. Layanan Dataflow menyediakan dua jenis worker: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.
Worker Dataflow menggunakan resource berikut, masing-masing dikenai biaya per detik:
- CPU
- Memori
Pekerja batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak akan menghasilkan tagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow mencakup penggunaan resource Compute Engine tersebut.
Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan autoscaling, Anda dapat menentukan jumlah pekerja maksimum untuk dialokasikan ke suatu tugas. Worker dan resource masing-masing ditambahkan dan dihapus secara otomatis berdasarkan aktuasi autoscaling.
Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap pekerja dan yang menggunakan GPU.
FlexRS
Dataflow menyediakan opsi dengan harga CPU dan memori yang didiskon untuk batch processing. Penjadwalan Resource Fleksibel (FlexRS) menggabungkan VM reguler dan preemptible dalam satu pool worker Dataflow, sehingga pengguna dapat mengakses resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam jangka waktu 6 jam untuk mengidentifikasi waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.
Meskipun Dataflow menggunakan kombinasi worker untuk menjalankan tugas FlexRS, Anda akan ditagih dengan tarif diskon seragam sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis worker. Anda dapat menginstruksikan Dataflow untuk menggunakan FlexRS untuk pipeline batch yang diskalakan secara otomatis dengan menentukan parameter FlexRS.
Data Dataflow Shuffle yang diproses
Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar pekerja. Untuk informasi selengkapnya, lihat Shuffle Dataflow.
Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama shuffle.
Harga Streaming Engine
Untuk pipeline streaming, Dataflow Streaming Engine memindahkan pemrosesan status dan pengacakan streaming dari VM pekerja ke backend layanan Dataflow. Untuk informasi selengkapnya, lihat Streaming Engine.
Unit Komputasi Streaming Engine
Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Komputasi Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas lalu menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Untuk mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Saat Anda menggunakan penagihan berbasis resource, diskon yang ada akan diterapkan secara otomatis.
Saat Anda menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan, bukan SKU Streaming Engine Compute Unit.
Data Streaming Engine yang diproses (lama)
Dataflow terus mendukung penagihan data yang diproses lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas akan ditagih menggunakan penagihan data yang diproses.
Penagihan data yang diproses Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Kompleksitas pipeline
- Jumlah tahap pipeline dengan operasi shuffle atau dengan DoFn stateful
Contoh yang dihitung sebagai byte yang diproses mencakup item berikut:
- Alur input dari sumber data
- Aliran data dari satu tahap pipeline gabungan ke tahap gabungan lainnya
- Aliran data yang tetap berada dalam status yang ditentukan pengguna atau yang digunakan untuk windowing
- Mengirim pesan output ke sink data, seperti ke Pub/Sub atau BigQuery
Harga resource komputasi Dataflow - batch & FlexRS
Tabel berikut berisi detail harga untuk resource worker dan data Shuffle yang diproses untuk tugas batch dan FlexRS.
1 Setelan default pekerja batch: 1 vCPU, memori sebesar 3,75 GB, Persistent Disk sebesar 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk sebesar 25 GB jika menggunakan Dataflow Shuffle
2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja
Harga resource komputasi Dataflow - streaming
Tabel berikut berisi detail harga untuk resource worker, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.
3 Setelan default pekerja streaming: 4 vCPU, memori sebesar 15 GB, Persistent Disk sebesar 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk sebesar 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.
4 Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis saat mengacak set data Anda. Untuk mengetahui informasi selengkapnya, lihat Detail harga Shuffle Dataflow. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan tagihan berbasis resource.
5 Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Job ini tidak ditagih untuk data yang diproses selama pengacakan.
Penyesuaian volume untuk data Dataflow Shuffle yang diproses
Biaya dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan pada total jumlah data yang diproses selama operasi Dataflow Shuffle. Tagihan aktual Anda untuk data Shuffle Dataflow yang diproses setara dengan dikenai biaya penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menghasilkan metrik data shuffle yang diproses dan dapat ditagih yang lebih kecil daripada metrik total data shuffle yang diproses.
Tabel berikut menjelaskan cara penyesuaian ini diterapkan:
| Data Dataflow Shuffle yang diproses | Penyesuaian penagihan |
| 250 GB pertama | 75% pengurangan |
| 4.870 GB berikutnya | 50% pengurangan |
| Data yang tersisa di atas 5.120 GB (5 TB) | tidak ada |
Misalnya, jika pipeline Anda menghasilkan 1.024 GB (1 TB) total data Shuffle Dataflow yang diproses, jumlah yang dapat ditagih dihitung sebagai berikut:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Jika pipeline Anda menghasilkan total data Shuffle Dataflow yang diproses sebesar 10.240 GB (10 TB), jumlah data yang dapat ditagih adalah:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Harga resource komputasi Dataflow Prime
Dataflow Prime adalah platform pemrosesan data yang dibangun berdasarkan Dataflow untuk menghadirkan peningkatan dalam pemanfaatan resource dan diagnostik terdistribusi.
Resource komputasi yang digunakan oleh tugas Dataflow Prime dihargai berdasarkan jumlah Unit Komputasi Data (DCU). DCU merepresentasikan resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lain yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, akan ditagih secara terpisah.
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
Unit Komputasi Data
Unit Komputasi Data (DCU) adalah unit pengukuran penggunaan Dataflow yang melacak jumlah resource komputasi yang digunakan oleh tugas Anda. Resource yang dilacak oleh DCU mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menggunakan lebih banyak resource memiliki penggunaan DCU yang lebih banyak dibandingkan dengan tugas yang menggunakan lebih sedikit resource. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada pekerja 1 vCPU 4 GB.
Penagihan Unit Komputasi Data
Anda akan ditagih untuk jumlah total DCU yang digunakan oleh tugas Anda. Harga satu DCU bervariasi berdasarkan apakah Anda memiliki tugas batch atau tugas streaming. Saat Anda menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan, bukan byte yang diproses.
Mengoptimalkan penggunaan Unit Komputasi Data
Anda tidak dapat menetapkan jumlah DCU untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCU yang digunakan dengan mengelola aspek-aspek berikut dari tugas Anda:
- Mengurangi konsumsi memori
- Mengurangi jumlah data yang diproses dalam langkah pengacakan dengan menggunakan filter, penggabung, dan coder yang efisien
Untuk mengidentifikasi pengoptimalan ini, gunakan antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.
Apa perbedaan harga Dataflow Prime dengan harga Dataflow?
Di Dataflow, Anda dikenai biaya untuk resource yang berbeda-beda yang digunakan oleh tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.
Unit Komputasi Data mengonsolidasikan semua resource kecuali penyimpanan ke dalam unit pengukuran tunggal. Anda akan ditagih untuk resource Persistent Disk dan untuk jumlah DCU yang digunakan berdasarkan jenis tugas, batch, atau streaming. Untuk informasi selengkapnya, lihat Menggunakan Dataflow Prime.
Apa yang terjadi pada tugas saya yang ada yang menggunakan model harga Dataflow?
Tugas batch dan streaming Anda yang ada akan terus ditagih menggunakan model Dataflow. Saat Anda mengupdate tugas untuk menggunakan Dataflow Prime, tugas tersebut akan menggunakan model harga Dataflow Prime, yang akan ditagih untuk resource Persistent Disk dan DCU yang digunakan.
Referensi Dataflow lainnya
Penyimpanan, GPU, snapshot, dan resource lainnya ditagih dengan cara yang sama untuk Dataflow dan Dataflow Prime.
Harga resource penyimpanan
Resource penyimpanan ditagih dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih Persistent Disk secara terpisah berdasarkan harga di tabel berikut.
Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.
Tugas yang menggunakan Streaming Engine menggunakan disk boot sebesar 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan disk boot 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.
Penggunaan Compute Engine didasarkan pada jumlah rata-rata worker, sedangkan penggunaan Persistent Disk didasarkan pada nilai --maxNumWorkers yang tepat. Persistent Disk
didistribusikan ulang sehingga setiap worker memiliki jumlah disk terpasang yang sama.
Harga resource GPU
Resource GPU ditagih dengan tarif yang sama untuk tugas streaming dan batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat Ketersediaan region dan zona GPU dalam dokumentasi Compute Engine.
Snapshot
Untuk membantu Anda mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline Anda. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Logika jendela Anda
- Jumlah tahapan pipeline
Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot Anda guna memulihkan status pipeline Anda. Untuk informasi selengkapnya, lihat Menggunakan snapshot Dataflow.
Harga snapshot
Confidential VM
Confidential VM untuk Dataflow mengenkripsi data yang digunakan pada VM Compute Engine pekerja. Untuk mengetahui detail selengkapnya, lihat Ringkasan Confidential VM.
Penggunaan Confidential VM untuk Dataflow menimbulkan biaya tambahan tetap per-vCPU dan per-GB.
Harga Confidential VM
Harga berlaku global dan tidak berubah berdasarkan Google Cloud region.
Resource non-Dataflow
Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenakan biaya sesuai dengan harganya sendiri, termasuk tetapi tidak terbatas pada:
-
Job Dataflow menggunakan Cloud Storage untuk menyimpan file sementara selama eksekusi pipeline. Untuk menghindari penagihan biaya penyimpanan yang tidak perlu, nonaktifkan fitur penghapusan sementara pada bucket yang digunakan oleh tugas Dataflow Anda untuk penyimpanan sementara. Untuk informasi selengkapnya, lihat Menonaktifkan penghapusan sementara.
-
Anda dapat merutekan log ke tujuan lain atau mengecualikan log dari penyerapan. Untuk informasi tentang cara mengoptimalkan volume log untuk tugas Dataflow Anda, lihat mengontrol volume log Dataflow.
Melihat penggunaan resource
Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan tugas di panel Job info di bagian Resource metrics. Anda dapat melacak metrik berikut di Antarmuka Pemantauan Dataflow:
- Total waktu vCPU
- Total waktu penggunaan memori
- Total waktu penggunaan Persistent Disk
- Total data streaming yang diproses
- Total data shuffle yang diproses
- Data shuffle tertagih yang diproses
Anda dapat menggunakan metrik Total shuffle data processed untuk mengevaluasi performa pipeline dan metrik Billable shuffle data processed untuk menentukan biaya tugas Dataflow.
Untuk Dataflow Prime, Anda dapat melihat total jumlah DCU yang digunakan oleh suatu tugas di panel Job info pada Resource metrics.
Kalkulator harga
Gunakan Google Cloud Kalkulator Harga untuk membantu Anda memahami perhitungan tagihan Anda.
Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.
Langkah berikutnya
- Baca dokumentasi Dataflow.
- Mulai menggunakan Dataflow.
- Coba Kalkulator Harga.
- Pelajari Solusi dan kasus penggunaan Dataflow.