單一節點叢集

單一節點叢集是指只有一個節點的 Dataproc 叢集,此單一節點可做為 Dataproc 叢集的主要節點和工作站節點使用。雖然單一節點叢集只有一個節點,但大部分的 Dataproc 概念與功能都仍適用,但底下所列的項目除外。

以下是單一節點 Dataproc 叢集適用的數種情況,包括:

  • 試用新版 Spark 和 Hadoop 或是其他開放原始碼元件
  • 建構概念驗證 (PoC) 示範
  • 輕量級數據資料學
  • 小規模一般資料處理
  • 與 Spark 和 Hadoop 生態系統相關的教育

單一節點叢集語意

下列語意適用於單一節點 Dataproc 叢集:

  • 單一節點叢集套用與多節點 Dataproc 叢集相同的設定,並加入 HDFS 和 YARN 等服務。
  • 單一節點叢集會回報為初始化動作的主要節點。
  • 由於單一節點同時做為主要節點和工作站節點,因此單一節點叢集顯示為 0 個工作站。
  • 系統會提供單一節點叢集採用 clustername-m 模式的主機名稱。您可以使用這個主機名稱,透過 SSH 登入或連線至節點上的網路 UI
  • 單一節點叢集無法升級到多節點叢集。建立後,單一節點叢集就僅限於一個節點。同樣地,多節點叢集也無法縮減為單一節點叢集。

限制

  • 不建議採用單一節點叢集進行大規模平行資料處理。如果超出單一節點叢集上的資源,建議您採用多節點 Dataproc 叢集。

  • 由於叢集中只有一個節點,因此高可用性不適用於單一節點叢集。

  • 單一節點叢集無法使用先佔 VM

建立單一節點叢集

gcloud 指令

您可以使用 gcloud 指令列工具建立單一節點 Dataproc 叢集。如要建立單一節點叢集,請將 --single-node 標記傳送至 gcloud dataproc clusters create 指令。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

REST API

您可以透過 Dataproc REST API 使用 clusters.create 要求來建立單一節點叢集。提出這項要求時,您必須:

  1. 將屬性 "dataproc:dataproc.allow.zero.workers":"true" 新增至叢集要求的 SoftwareConfig
  2. 請勿提交 workerConfigsecondaryWorkerConfig 的值 (請參閱 ClusterConfig)。

控制台

您可以前往 Dataproc「Create a cluster」(建立叢集) 頁面,在「Set up cluster」(設定叢集) 面板的「Cluster type」(叢集類型) 部分選取「Single Node (1 master, 0 workers)」(單一節點 (1 個主要節點,0 個工作站)),藉此建立單一節點叢集。