叢集屬性

安裝在 Dataproc 叢集上的開放原始碼元件包含許多設定檔。舉例來說,Apache Spark 和 Apache Hadoop 就有幾個 XML 和純文字設定檔。您可以在建立叢集時,於 gcloud dataproc clusters create 指令中使用 ‑‑properties 標記,來修改許多常用的設定檔。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式:

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix 會對應至預先定義的設定檔 (如下表所示),而 property 則會對應至檔案中的屬性。

  • 用來分隔多個叢集屬性的預設分隔符號是半形逗號 (,)。不過,如果屬性值包含半形逗號,您必須在屬性清單開頭指定「^delimiter^」來變更分隔符號 (詳情請參閱 gcloud 主題逸出)。

    • 使用「#」分隔符號的範例:
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

範例

gcloud 指令

如要變更 spark-defaults.conf 檔案中的 spark.master 設定,請新增下列 gcloud dataproc clusters create --properties 標記:

--properties 'spark:spark.master=spark://example.com'

您可以使用逗號分隔符號,一次變更一或多個設定檔中的數個屬性。每個屬性都必須以完整的 file_prefix:property=value 格式指定。舉例來說,如要變更 spark-defaults.conf 檔案中的 spark.master 設定,以及 hdfs-site.xml 檔案中的 dfs.hosts 設定,請在建立叢集時使用下列 --properties 旗標:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

如要將 spark.executor.memory 設為 10g,請在 clusters.create 要求的 SoftwareConfig 區段中插入下列 properties 設定:

"properties": {
  "spark:spark.executor.memory": "10g"
}

如要輕鬆瞭解如何建構 Dataproc API 叢集 REST 要求的 JSON 主體,請使用 --log-http 標記啟動對等的 gcloud 指令。以下為 gcloud dataproc clusters create 指令範例,使用 --properties spark:spark.executor.memory=10g 標記設定叢集屬性。stdout 記錄檔顯示產生的 REST 要求主體 (properties 片段顯示如下):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

輸出內容:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

如果您不想讓指令生效,請務必在輸出中出現 JSON 主體後取消指令

控制台

如要變更 spark-defaults.conf 檔案中的 spark.master 設定,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,開啟 Dataproc 的「建立叢集」頁面。按一下「自訂叢集」面板,然後捲動至「叢集屬性」部分。

  2. 按一下「+ 新增資源」。 在「Prefix」清單中選取「spark」,然後在「Key」欄位中新增「spark.master」,並在「Value」欄位中新增設定。

叢集與工作屬性

建立叢集時,系統會在叢集層級套用 Apache Hadoop YARN、HDFS、Spark 和其他以檔案為前置字元的屬性。叢集建立後,就無法再將這些屬性套用至叢集。不過,許多屬性也可以套用至特定工作。將屬性套用至工作時,不會使用檔案前置字串

下列範例會將 Spark 執行器記憶體設為 4g,用於 Spark 工作 (省略 spark: 前置字串)。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

您可以使用 gcloud dataproc jobs submit job-type --properties-file 旗標,在檔案中提交工作屬性 (例如,請參閱 Hadoop 工作提交的 --properties-file 說明)。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE 是一組以換行符分隔的 key=value 配對。要設定的屬性是 key,而要將屬性設為的值是 value。如要詳細瞭解屬性檔案格式,請參閱 java.util.Properties 類別。

以下範例為屬性檔案,提交 Dataproc 工作時可傳遞至 --properties-file 標記。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

以檔案為前置字元的屬性資料表

檔案前置字串 檔案 檔案用途
capacity-scheduler capacity-scheduler.xml Hadoop YARN Capacity Scheduler 設定
core core-site.xml Hadoop 一般設定
distcp distcp-default.xml Hadoop Distributed Copy 設定
Flink flink-conf.yaml Flink 設定
flink-log4j log4j.properties Log4j 設定檔
hadoop-env hadoop-env.sh Hadoop 特定環境變數
hadoop-log4j log4j.properties Log4j 設定檔
hbase hbase-site.xml HBase 設定
hbase-log4j log4j.properties Log4j 設定檔
hdfs hdfs-site.xml Hadoop HDFS 設定
hive hive-site.xml Hive 設定
hive-log4j2 hive-log4j2.properties Log4j 設定檔
hudi hudi-default.conf Hudi 設定
mapred mapred-site.xml Hadoop MapReduce 設定
mapred-env mapred-env.sh Hadoop MapReduce 特定環境變數
pig pig.properties Pig 設定
pig-log4j log4j.properties Log4j 設定檔
presto config.properties Presto 設定
presto-jvm jvm.config Presto 特定 JVM 設定
spark spark-defaults.conf Spark 設定
spark-env spark-env.sh Spark 特定環境變數
spark-log4j log4j.properties Log4j 設定檔
tez tez-site.xml Tez 設定
webcat-log4j webhcat-log4j2.properties Log4j 設定檔
yarn yarn-site.xml Hadoop YARN 設定
yarn-env yarn-env.sh Hadoop YARN 特定環境變數
齊柏林飛船 zeppelin-site.xml Zeppelin 設定
zeppelin-env zeppelin-env.sh Zeppelin 特定環境變數 (僅限選用元件)
zeppelin-log4j log4j.properties Log4j 設定檔
zookeeper zoo.cfg Zookeeper 設定
zookeeper-log4j log4j.properties Log4j 設定檔

附註

  • 有些屬性攸關 Dataproc 叢集的功能,因此無法覆寫,並且會被保留下來。如果您嘗試變更保留屬性,將會在建立叢集時收到錯誤訊息。
  • 如要指定多個變更,可以用逗號來分隔。
  • --properties 標記無法修改未顯示在上表中的設定檔。
  • 對屬性所做的變更將在叢集上的 Daemon 啟動之前套用。
  • 如果指定的屬性存在,將會更新該屬性。如果指定的屬性不存在,則會將它新增至設定檔。

Dataproc 服務屬性

本節列出的屬性專屬於 Dataproc。 這些屬性可用於進一步設定 Dataproc 叢集的功能。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式:

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • 用來分隔多個叢集屬性的預設分隔符號是半形逗號 (,)。不過,如果屬性值包含半形逗號,您必須在屬性清單開頭指定「^delimiter^」來變更分隔符號 (詳情請參閱 gcloud topic escaping)。

    • 使用「#」分隔符號的範例:
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

範例:

建立叢集,並將「強化版彈性模式」設為 Spark 主要工作者隨機播放。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc 服務屬性資料表

屬性前置字元 屬性 說明
dataproc agent.process.threads.job.min number Dataproc 會在執行緒集區中並行執行使用者工作驅動程式。即使沒有工作正在執行,這項屬性也會控制執行緒集區中的執行緒數量下限,確保快速啟動 (預設值:10)。
dataproc agent.process.threads.job.max number Dataproc 會在執行緒集區中並行執行使用者工作驅動程式。這項屬性可控制執行緒集區中的執行緒數量上限,因此會限制使用者作業的並行上限。調高這個值可提高並行程度 (預設值:100)。
dataproc am.primary_only truefalse 將此屬性設為 true,防止應用程式主要執行個體在 Dataproc 叢集先佔工作站上執行。注意:這項功能僅適用於 Dataproc 1.2 以上版本。預設值為 false
dataproc conda.env.config.uri gs://<path> Conda 環境設定檔在 Cloud Storage 中的位置。系統會根據這個檔案建立並啟用新的 Conda 環境。詳情請參閱「使用與 Conda 相關的叢集屬性」。(預設值:empty)。
dataproc conda.packages Conda 套件 這項屬性會採用以逗號分隔的 Conda 套件清單,並在 base Conda 環境中安裝特定版本。詳情請參閱「使用與 Conda 相關的叢集屬性」。(預設值:empty)。
dataproc dataproc.allow.zero.workers truefalse 在 Dataproc clusters.create API 要求中將此 SoftwareConfig 屬性設為 true,以建立單節點叢集,這會將預設的工作站數量從 2 變更為 0,並將工作站元件放在主要主機上。您也可以透過在 Google Cloud 控制台上或使用 Google Cloud CLI 將工作站數量設為 0 來建立單一節點叢集。
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 設定值會建立具有 Intel Optane DC 持續性記憶體的 Dataproc 主機。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並僅限於已加入許可清單的專案。
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 設定值會建立具有 Intel Optane DC 持續性記憶體的 Dataproc 工作站。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並僅限於已加入許可清單的專案。
dataproc: dataproc.await-new-workers-service-registration truefalse 此屬性適用於 2.0.49 以上版本的圖片。預設值為 false。將這項屬性設為 true,即可在建立叢集或擴大叢集規模時,等待新的主要工作站註冊服務領導者,例如 HDFS NameNode 和 YARN ResourceManager (僅監控 HDFS 和 YARN 服務)。如果設為 true,新工作人員無法註冊服務時,系統會將工作人員指派為 FAILED 狀態。如果叢集正在擴充,系統會移除失敗的工作人員。如果正在建立叢集,且在 gcloud 指令或 API 叢集建立要求中指定了 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 標記或 API actionOnFailedPrimaryWorkers=DELETE 欄位,系統就會移除失敗的工作站。
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings 這項屬性會採用使用者與服務帳戶的對應清單。對應的使用者可將互動式工作負載提交至叢集,並使用隔離的使用者身分 (請參閱「以 Dataproc 服務帳戶為基礎的多用戶群安全架構」)。
dataproc: dataproc.cluster.caching.enabled truefalse 啟用叢集快取後,叢集會快取 Spark 工作存取的 Cloud Storage 資料,進而提升工作效能,同時確保資料一致性。(預設值:false)。
dataproc dataproc.cluster-ttl.consider-yarn-activity truefalse 設為 true 時,「叢集排定刪除」會同時考量 YARN 和 Dataproc Jobs API 活動,計算叢集閒置時間。如果設為 false,系統只會考量 Dataproc Jobs API 活動。(預設值:true)。詳情請參閱叢集閒置時間計算
dataproc dataproc.conscrypt.provider.enable truefalse 啟用 (true) 或停用 (false) Conscrypt 為主要 Java 安全性供應商。注意:Conscrypt 在 Dataproc 1.2 及更高版本中是預設為啟用,但在 1.0/1.1 中則是預設為停用。
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings 這項屬性會採用以逗號分隔的使用者與服務帳戶對應清單。如果叢集是使用這項屬性集建立,當使用者提交作業時,叢集會嘗試透過 Cloud Storage 連接器存取 Cloud Storage,並模擬對應的服務帳戶。這項功能需要 Cloud Storage 連接器 2.1.4 以上版本。詳情請參閱「Dataproc 合作式多用戶群架構」。(預設值:empty)。
dataproc dataproc.control.max.assigned.job.tasks 100 這項屬性會限制叢集主節點可同時執行的工作數量。如果有效工作數超過工作限制,新工作會排入佇列,直到執行中的工作完成並釋出資源,才能排定新工作。注意:不建議將預設工作限制設為超過 100 (預設值),因為這可能會導致主節點發生記憶體不足的情況。
dataproc dataproc:hudi.version Hudi 版本 設定與選用 Dataproc Hudi 元件搭配使用的 Hudi 版本。注意:這個版本是由 Dataproc 設定,與叢集映像檔版本相容。如果是由使用者設定,且指定版本與叢集映像檔不相容,叢集建立作業可能會失敗。
dataproc dataproc.lineage.enabled true 在 Dataproc 叢集中為 Spark 工作啟用資料沿襲
dataproc dataproc.localssd.mount.enable truefalse 是否將本機 SSD 掛接為 Hadoop/Spark 臨時目錄和 HDFS 資料目錄 (預設值:true)。
dataproc dataproc.logging.extended.enabled truefalse 啟用 (true) 或停用 (false) Cloud Logging 中的下列記錄:knoxzeppelinranger-usersyncjupyter_notebookjupyter_kernel_gatewayspark-history-server (預設為 false)。詳情請參閱「Logging 中的 Dataproc 叢集記錄」。
dataproc dataproc.logging.stackdriver.enable truefalse 啟用 (true) 或停用 (false) Cloud Logging (預設值:true)。如需相關費用,請參閱 Cloud Logging 定價
dataproc dataproc.logging.stackdriver.job.driver.enable truefalse 啟用 (true) 或停用 (false) Cloud Logging 中的 Dataproc 工作驅動程式記錄。請參閱 Dataproc 工作輸出內容和記錄 (預設值:false)。
dataproc dataproc.logging.stackdriver.job.yarn.container.enable truefalse 啟用 (true) 或停用 (false) Cloud Logging 中的 YARN 容器記錄。請參閱「Spark 工作輸出選項」。(預設值:false)。
dataproc dataproc.logging.syslog.enabled truefalse 啟用 (true) 或停用 (false) Cloud Logging 中的 VM 系統記錄 (預設為 false)。
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICESRUN_AFTER_SERVICES 如果是 2.0 以上的映像檔叢集,設為 RUN_AFTER_SERVICES 時,系統會在初始化 HDFS 和任何依附於 HDFS 的服務後,執行主要節點的初始化動作。HDFS 相關服務的範例包括:HBase、Hive Server2、Ranger、Solr,以及 Spark 和 MapReduce 歷來伺服器。(預設值:RUN_BEFORE_SERVICES)。
dataproc dataproc.monitoring.stackdriver.enable truefalse 啟用 (true) 或停用 (false) Monitoring 代理程式 (預設值:false)。這項屬性已淘汰。如要啟用 Monitoring 中的 Dataproc OSS 指標收集功能,請參閱「啟用自訂指標收集功能」。
dataproc dataproc.scheduler.driver-size-mb number 驅動程式的平均記憶體用量,決定叢集可執行的並行工作數量上限。預設值為 1 GB。較小的值 (例如 256) 可能適合 Spark 工作。
dataproc dataproc.scheduler.job-submission-rate number 如果超過這個速率,系統就會限制工作。預設值為 1.0 QPS。
dataproc dataproc.scheduler.max-concurrent-jobs number 並行工作數上限。如果建立叢集時未設定這個值,並行工作上限會計算為 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)masterMemoryMb 取決於主要 VM 的機器類型。masterMemoryMbPerJob 預設為 1024,但可使用 dataproc:dataproc.scheduler.driver-size-mb 叢集屬性在建立叢集時設定。
dataproc dataproc.scheduler.max-memory-used number 可使用的 RAM 容量上限。如果目前用量超過這個門檻,就無法安排新工作。預設值為 0.9 (90%)。如果設為 1.0,系統會停用主記憶體用量工作節流。
dataproc dataproc.scheduler.min-free-memory.mb number Dataproc 工作驅動程式在叢集上排定其他工作時,所需的最小可用記憶體量 (以 MB 為單位)。預設值為 256 MB。
dataproc dataproc.snap.enabled truefalse 啟用或停用 Ubuntu Snap Daemon。預設值為 true。如果設為 false,映像檔中預先安裝的 Snap 套件不會受到影響,但自動重新整理功能會停用。適用於 1.4.71、1.5.46、2.0.20 以上版本的 Ubuntu 映像檔。
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES 對於 2.0 之前的映像檔叢集,RUN_BEFORE_SERVICES 不會設定,但使用者可以在建立叢集時設定。如果是 2.0 以上的映像檔叢集,系統會設定 RUN_BEFORE_SERVICES ,且屬性無法傳遞至叢集 (使用者無法變更)。如要瞭解這項設定的影響,請參閱「重要考量事項與指引 - 初始化處理程序」。
dataproc dataproc.yarn.orphaned-app-termination.enable truefalse 預設值為 true。設為 false,可防止 Dataproc 終止「孤立」的 YARN 應用程式。如果提交 YARN 應用程式的工作驅動程式已結束,Dataproc 會將 YARN 應用程式視為孤立應用程式。警告:如果您使用 Spark 叢集模式 (spark.submit.deployMode=cluster) 並設定 spark.yarn.submit.waitAppCompletion=false,Spark 驅動程式會結束,不會等待 YARN 應用程式完成;在這種情況下,請設定 dataproc:dataproc.yarn.orphaned-app-termination.enable=false。提交 Hive 工作時,也請將這項屬性設為 false
dataproc diagnostic.capture.enabled truefalse 啟用叢集檢查點診斷資料的收集功能。(預設值:false)。
dataproc diagnostic.capture.access GOOGLE_DATAPROC_DIAGNOSE 如果設為 GOOGLE_DATAPROC_DIAGNOSE,系統會將儲存在 Cloud Storage 中的叢集檢查點診斷資料,分享給 Dataproc 支援團隊。(預設值:未設定)。
dataproc efm.spark.shuffle primary-worker 如果設為 primary-worker,Spark Shuffle 資料會寫入主要工作站。詳情請參閱「Dataproc 強化版彈性模式」。
dataproc job.history.to-gcs.enabled truefalse 允許將 MapReduce 和 Spark 記錄檔保留在 Dataproc 暫時值區 (預設:1.5 以上版本的映像檔為 true)。使用者可以透過下列屬性覆寫工作記錄檔的保留位置:mapreduce.jobhistory.done-dirmapreduce.jobhistory.intermediate-done-dirspark.eventLog.dirspark.history.fs.logDirectory。如要瞭解這些和其他與 Dataproc 工作記錄和事件檔案相關的叢集屬性,請參閱 Dataproc 持續性記錄伺服器
dataproc jobs.file-backed-output.enable truefalse 將 Dataproc 工作設為將輸出內容導向 /var/log/google-dataproc-job 目錄中的暫存檔案。必須設為 true,才能在 Cloud Logging 中啟用工作驅動程式記錄 (預設值:true)。
dataproc jupyter.listen.all.interfaces truefalse 為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險,1.3 以上版本映像檔的預設設定為 false,啟用元件閘道時,會將連線限制為 localhost (127.0.0.1) (2.0 以上版本映像檔不需啟用元件閘道)。如要允許所有連線,請將這項屬性設為 true,即可覆寫預設設定。
dataproc jupyter.notebook.gcs.dir gs://<dir-path> 儲存 Jupyter 筆記本的 Cloud Storage 位置。
dataproc kerberos.beta.automatic-config.enable truefalse 設為 true 時,使用者不需要使用 --kerberos-root-principal-password--kerberos-kms-key-uri 標記指定 Kerberos 根主體密碼 (預設為 false)。詳情請參閱「透過 Kerberos 啟用 Hadoop 安全模式」。
dataproc kerberos.cross-realm-trust.admin-server hostname/address 遠端管理伺服器的主機名稱/位址 (通常與 KDC 伺服器相同)。
dataproc kerberos.cross-realm-trust.kdc hostname/address 遠端 KDC 的主機名稱/位址。
dataproc kerberos.cross-realm-trust.realm realm name 領域名稱可由任何大寫 ASCII 字串組成。通常領域名稱與 DNS 網域名稱相同 (以大寫表示)。舉例來說,如果機器的名稱為「machine-id.example.west-coast.mycompany.com」,相關聯的領域可能會指定為「EXAMPLE.WEST-COAST.MYCOMPANY.COM」。
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Cloud Storage 中 KMS 加密共用密碼的位置。
dataproc kerberos.kdc.db.key.uri gs://<dir-path> KMS 加密檔案在 Cloud Storage 中的位置,該檔案含有 KDC 資料庫主金鑰。
dataproc kerberos.key.password.uri gs://<dir-path> KMS 加密檔案的 Cloud Storage 位置,該檔案含有 KeyStore 檔案中金鑰的密碼。
dataproc kerberos.keystore.password.uri gs://<dir-path> Cloud Storage 中 KMS 加密檔案的位置,該檔案含有金鑰儲存庫密碼。
dataproc kerberos.keystore.uri1 gs://<dir-path> KeyStore 檔案在 Cloud Storage 中的位置,該檔案含有叢集節點使用的萬用字元憑證和私密金鑰。
dataproc kerberos.kms.key.uri KMS key URI 用於解密根密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。
dataproc kerberos.root.principal.password.uri gs://<dir-path> Kerberos 根主體 KMS 加密密碼的 Cloud Storage 位置。
dataproc kerberos.tgt.lifetime.hours hours 票證授權票證的最長生命週期。
dataproc kerberos.truststore.password.uri gs://<dir-path> KMS 加密檔案在 Cloud Storage 中的位置,該檔案含有信任儲存庫檔案的密碼。
dataproc kerberos.truststore.uri2 gs://<dir-path> KMS 加密信任儲存庫檔案的 Cloud Storage 位置,該檔案含有受信任的憑證。
dataproc pip.packages Pip 套件 這項屬性會採用以逗號分隔的 Pip 套件清單,並指定要在 base Conda 環境中安裝的版本。詳情請參閱「Conda 相關叢集屬性」。(預設值:empty)。
dataproc ranger.kms.key.uri KMS key URI 用於解密 Ranger 管理員使用者密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。
dataproc ranger.admin.password.uri gs://<dir-path> Cloud Storage 中 Ranger 管理員使用者 KMS 加密密碼的位置。
dataproc ranger.db.admin.password.uri gs://<dir-path> Ranger 資料庫管理員使用者 KMS 加密密碼的 Cloud Storage 位置。
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Cloud SQL 執行個體的連線名稱,例如 project-id:region:name.
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Cloud SQL 執行個體超級使用者密碼的 Cloud Storage 位置 (已透過 KMS 加密)。
dataproc ranger.cloud-sql.use-private-ip truefalse 叢集執行個體與 Cloud SQL 執行個體之間的通訊是否應透過私人 IP 進行 (預設值為 false)。
dataproc solr.gcs.path gs://<dir-path> 做為 Solr 主目錄的 Cloud Storage 路徑。
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Dataproc 啟動指令碼會等待 hadoop-hdfs-namenode 繫結至連接埠的時間長度,之後才會判定啟動成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc startup.component.service-binding-timeout.hive-metastore seconds Dataproc 啟動指令碼會等待 Hive Metastore 服務繫結至連接埠的時間長度,之後會判定啟動是否成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc startup.component.service-binding-timeout.hive-server2 seconds Dataproc 啟動指令碼會等待 hive-server2 繫結至連接埠的時間長度,之後才會判定啟動成功。可辨識的最大值為 1800 秒 (30 分鐘)。
dataproc user-attribution.enabled truefalse 將此屬性設為 true,即可將 Dataproc 工作歸因於提交該工作的使用者身分 (預設值為 false)。
dataproc yarn.docker.enable truefalse 設為 true 即可啟用 Dataproc Docker on YARN 功能 (預設值為 false)。
dataproc yarn.docker.image docker image 啟用 Dataproc Docker on YARN 功能 (dataproc:yarn.docker.enable=true) 時,您可以使用這個選用屬性指定 Docker 映像檔 (例如 dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1)。如果指定,系統會在建立叢集期間,將映像檔下載並快取至叢集的所有節點。
dataproc yarn.log-aggregation.enabled truefalse 允許 (true) 啟用 YARN 記錄檔匯總功能,將記錄檔匯總至叢集的 temp bucket。值區名稱的格式如下:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>。(預設值:映像檔版本 1.5 以上為 true)。注意:刪除叢集時,系統不會刪除叢集的暫時值區。使用者也可以覆寫 yarn.nodemanager.remote-app-log-dir YARN 屬性,設定匯總 YARN 記錄的位置。
knox gateway.host ip address 為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險,映像檔版本 1.3 以上的預設設定為 127.0.0.1,這項設定會在啟用 Component Gateway 時,將連線限制為 localhost。您可以覆寫預設設定,例如將這項屬性設為 0.0.0.0,允許所有連線。
齊柏林飛船 zeppelin.notebook.gcs.dir gs://<dir-path> 儲存 Zeppelin 筆記本的 Cloud Storage 位置。
齊柏林飛船 zeppelin.server.addr ip address 為降低透過不安全的 Notebook 伺服器 API 執行遠端程式碼的風險,映像檔版本 1.3 以上的預設設定為 127.0.0.1,這會限制連線至 localhost (啟用元件閘道時)。您可以覆寫這項預設設定,例如將這項屬性設為 0.0.0.0,允許所有連線。

1 金鑰儲存區檔案:金鑰儲存區檔案包含 SSL 憑證。檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時,會重新命名為 keystore.jks。 SSL 憑證應為適用於叢集中每個節點的萬用字元憑證。

2信任儲存庫檔案:信任儲存庫檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時,會重新命名為 truststore.jks