Dataproc 總覽

Dataproc 是一項代管的 Spark 和 Hadoop 服務,能夠讓您妥善運用開放原始碼資料工具,進行批次處理、查詢、串流及機器學習作業。Dataproc 自動化功能可協助您快速建立叢集、輕鬆管理叢集,並在不需要叢集時關閉叢集來節省支出。您可以省下系統管理的時間與金錢,專注於工作與資料上。

Dataproc 的優點

與傳統內部部署的產品和競爭對手的雲端服務相比,Dataproc 能為節點數從三到數百個的叢集提供許多獨特的優勢:

  • 低成本:除了您使用的其他 Cloud Platform 資源之外,Dataproc 在叢集中每小時每個虛擬 CPU 的 費用只要 1 美分。除了價格便宜之外,Dataproc 叢集還包含有助降低運算費用的先占執行個體,讓您能夠進一步降低成本。相較於會把您的使用時間調高至最接近小時的其他服務,Dataproc 可根據您的實際使用時間按秒計費,並提供價格便宜的最少一分鐘計費週期。
  • 超快速:如果不使用 Dataproc,在內部部署環境或透過 IaaS 業者建立 Spark 和 Hadoop 叢集,通常需要 5 到 30 分鐘的時間。與之相比,Dataproc 叢集具有啟動快速、資源調度快速及關閉快速的優點,每項作業平均只需花 90 秒或不到 90 秒就能完成。這表示等候叢集的時間縮短了,可以有更多時間處理資料。
  • 整合:Dataproc 內建與其他 Google Cloud 平台服務整合,例如 BigQueryCloud StorageCloud BigtableCloud LoggingCloud Monitoring,因此您不只擁有 Spark 或 Hadoop 叢集,還擁有完整的資料平台。例如,您可以使用 Dataproc 輕鬆將高達數 TB 的 ETL 原始記錄資料直接放入 BigQuery 製作業務報表。
  • 代管:無需藉助管理員或特殊軟體即可使用 Spark 和 Hadoop 叢集。您可以透過 Google Cloud 控制台、Cloud SDK 或 Dataproc REST API,輕鬆與叢集和 Spark 或 Hadoop 工作互動。使用完叢集後,您可以直接關閉叢集,避免為閒置叢集付費。您不用擔心會遺失資料,因為 Dataproc 已經和 Cloud StorageBigQueryCloud Bigtable 整合在一起。
  • 簡單熟悉:您無需學習新工具或 API 就能使用 Dataproc,並且輕輕鬆鬆就能將現有專案遷移到 Dataproc,完全不需要重新開發。Spark、Hadoop、Pig 和 Hive 會經常更新,讓您能夠提升工作效率。

Dataproc 包含的內容

如需 Dataproc 支援的開放原始碼產品 (Hadoop、Spark、Hive 和 Pig) 及 Google Cloud連接器版本清單,請參閱 Dataproc 版本清單

開始使用 Dataproc

如要快速開始使用 Dataproc,請參閱 Dataproc 快速入門導覽課程。您可以透過下列方式存取 Dataproc: