叢集屬性

安裝在 Dataproc 叢集上的開放原始碼元件包含許多設定檔。例如,Apache Spark 和 Apache Hadoop 就有幾個 XML 和純文字設定檔。您可以在建立叢集時,使用 gcloud dataproc clusters create 指令的 ‑‑properties 標記,修改許多常用的設定檔。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式:

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix 會對應至預先定義的設定檔,如下表所示;property 則會對應至檔案中的屬性。

  • 用來分隔多個叢集資源的預設分隔符號為半形逗號 (,)。不過,如果資源值中含有半形逗號,您必須在資源清單開頭指定「^delimiter^」,才能變更分隔符號 (詳情請參閱 gcloud 主題逃逸)。

    • 使用「#」分隔符的範例:
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

範例

gcloud 指令

如要變更 spark-defaults.conf 檔案中的 spark.master 設定,請新增下列 gcloud dataproc clusters create --properties 標記:

--properties 'spark:spark.master=spark://example.com'

您可以透過使用逗號分隔的方式,一次變更一或多個設定檔中的數個屬性。每個屬性都必須以完整的 file_prefix:property=value 格式指定。例如,如要變更 spark-defaults.conf 檔案中的 spark.master 設定和 hdfs-site.xml 檔案中的 dfs.hosts 設定,請在建立叢集時使用下列 --properties 標記:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

如要將 spark.executor.memory 設為 10g,請在 clusters.create 要求的 SoftwareConfig 部分插入下列 properties 設定:

"properties": {
  "spark:spark.executor.memory": "10g"
}

查看如何建構 Dataproc API 叢集 REST 要求的 JSON 主體的簡單方法,就是使用 --log-http 標記啟動對等的 gcloud 指令。以下為使用 --properties spark:spark.executor.memory=10g 標記設定叢集屬性的 gcloud dataproc clusters create 指令範例。stdout 記錄檔顯示產生的 REST 要求主體 (properties 片段顯示如下):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

輸出內容:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

如果您不想讓指令生效,請務必在輸出中出現 JSON 主體後取消指令

控制台

如要變更 spark-defaults.conf 檔案中的 spark.master 設定,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。按一下「自訂叢集」面板,然後捲動至「叢集屬性」部分。

  2. 按一下「+ 新增屬性」。 在「前置字串」清單中選取「spark」,然後在「鍵」欄位中新增「spark.master」,並在「值」欄位中新增設定。

叢集與工作屬性

建立叢集時,系統會在叢集層級套用 Apache Hadoop YARN、HDFS、Spark 和其他檔案前置字串屬性。叢集建立後,就無法套用這些屬性。不過,這些屬性中的許多也能套用至特定工作。將屬性套用至工作時,系統不會使用檔案前置字串

以下範例會將 Spark 執行緒記憶體設為 Spark 工作的 4g (省略 spark: 前置字串)。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

您可以使用 gcloud dataproc jobs submit job-type --properties-file 旗標,在檔案中提交工作屬性 (例如,請參閱 Hadoop 工作提交作業的 --properties-file 說明)。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE 是一組以行分隔的 key=value 組合。要設定的屬性是 key,而要設為的值是 value。如需屬性檔案格式的詳細說明,請參閱 java.util.Properties 類別。

以下是屬性檔案範例,可在提交 Dataproc 工作時傳遞至 --properties-file 標記。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

檔案前置字串屬性表

檔案前置字串 檔案 檔案用途
capacity-scheduler capacity-scheduler.xml Hadoop YARN Capacity Scheduler 設定
core core-site.xml Hadoop 一般設定
distcp distcp-default.xml Hadoop Distributed Copy 設定
Flink flink-conf.yaml Flink 設定
flink-log4j log4j.properties Log4j 設定檔
hadoop-env hadoop-env.sh Hadoop 特定環境變數
hadoop-log4j log4j.properties Log4j 設定檔
hbase hbase-site.xml HBase 設定
hbase-log4j log4j.properties Log4j 設定檔
hdfs hdfs-site.xml Hadoop HDFS 設定
hive hive-site.xml Hive 設定
hive-log4j2 hive-log4j2.properties Log4j 設定檔
hudi hudi-default.conf Hudi 設定
mapred mapred-site.xml Hadoop MapReduce 設定
mapred-env mapred-env.sh Hadoop MapReduce 特定環境變數
pig pig.properties Pig 設定
pig-log4j log4j.properties Log4j 設定檔
presto config.properties Presto 設定
presto-jvm jvm.config Presto 特定 JVM 設定
spark spark-defaults.conf Spark 設定
spark-env spark-env.sh Spark 特定環境變數
spark-log4j log4j.properties Log4j 設定檔
Tez tez-site.xml Tez 設定
webcat-log4j webhcat-log4j2.properties Log4j 設定檔
yarn yarn-site.xml Hadoop YARN 設定
yarn-env yarn-env.sh Hadoop YARN 特定環境變數
齊柏林飛船 zeppelin-site.xml Zeppelin 設定
zeppelin-env zeppelin-env.sh Zeppelin 特定環境變數 (僅限選用元件)
zeppelin-log4j log4j.properties Log4j 設定檔
zookeeper zoo.cfg Zookeeper 設定
zookeeper-log4j log4j.properties Log4j 設定檔

附註

  • 有些屬性因為攸關 Dataproc 叢集的功能所以無法覆寫,並且會被保留下來。如果您嘗試變更保留屬性,將會在建立叢集時收到錯誤訊息。
  • 如要指定多個變更,可以用逗號來分隔。
  • --properties 標記無法修改未顯示在上表中的設定檔。
  • 對屬性所做的變更將在叢集上的 Daemon 啟動之前套用。
  • 如果指定的屬性存在,將會更新該屬性。如果指定的屬性不存在,則會將它新增至設定檔。

Dataproc 服務屬性

本節列出的屬性僅適用於 Dataproc。這些屬性可用於進一步設定 Dataproc 叢集的功能。

格式設定

gcloud dataproc clusters create --properties 標記接受下列字串格式:

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • 用來分隔多個叢集資源的預設分隔符號為半形逗號 (,)。不過,如果資源值中含有半形逗號,您必須在資源清單開頭指定「^delimiter^」,才能變更分隔符號 (詳情請參閱gcloud 主題逃逸)。

    • 使用「#」分隔符的範例:
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

範例:

建立叢集,並將強化彈性模式設為 Spark 主要工作者洗牌。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc 服務屬性資料表

屬性前置字串 屬性 說明
dataproc agent.process.threads.job.min number Dataproc 會在執行緒集區中同時執行使用者工作驅動程式。這項屬性可控管執行緒池中的執行緒數量下限,即使沒有執行的工作,也能快速啟動 (預設值:10)。
dataproc agent.process.threads.job.max number Dataproc 會在執行緒集區中同時執行使用者工作驅動程式。這項屬性可控制執行緒集區中的執行緒數量上限,因此可限制使用者工作執行的並行作業數量上限。如要提高並行處理作業的數量,請調高這個值 (預設值為 100)。
dataproc am.primary_only truefalse 將此屬性設為 true,以防止應用程式主要執行個體在 Dataproc 叢集先佔工作站上執行。注意:此功能僅適用於 Dataproc 1.2 及更高版本。預設值為 false
dataproc conda.env.config.uri gs://<path> Conda 環境設定檔在 Cloud Storage 中的所在位置。系統會根據這個檔案建立並啟用新的 Conda 環境。詳情請參閱「使用 Conda 相關的叢集資源屬性」。(預設值:empty)。
dataproc conda.packages Conda 套件 這個屬性會採用以逗號分隔的 Conda 套件清單,其中包含要在 base Conda 環境中安裝的特定版本。詳情請參閱「使用 Conda 相關的叢集資源屬性」。(預設值:empty)。
dataproc dataproc.allow.zero.workers truefalse 在 Dataproc clusters.create API 要求中將此 SoftwareConfig 屬性設為 true,以建立單節點叢集,這會將預設的工作站數量從 2 變更為 0,並將工作站元件放在主要主機上。您也可以透過在 Google Cloud 控制台上或使用 Google Cloud CLI 將工作站數量設為 0 來建立單節點叢集。
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 設定值後,系統會使用 Intel Optane DC 持續性記憶體建立 Dataproc 主機。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並且只能在白名單專案下建立。
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 設定值會建立使用 Intel Optane DC 持續性記憶體的 Dataproc 工作站。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並且只能在白名單專案下建立。
dataproc: dataproc.await-new-workers-service-registration truefalse 此屬性適用於 2.0.49 以上版本的映像檔。預設值為 false。將這個屬性設為 true,即可在叢集建立或叢集擴充期間,等待新的主要工作站註冊服務領導者 (例如 HDFS NameNode 和 YARN ResourceManager) (只會監控 HDFS 和 YARN 服務)。設定為 true 時,如果新 worker 無法註冊至服務,系統會為 worker 指派 FAILED 狀態。如果叢集要進行擴充,系統會移除失敗的工作站。如果叢集正在建立,如果 gcloud 指令或 API 叢集建立要求中指定了 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 標記或 API actionOnFailedPrimaryWorkers=DELETE 欄位,系統就會移除失敗的工作站。
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings 這項屬性會採用使用者與服務帳戶對應項目清單。已對應的使用者可以將互動式工作負載提交至具有隔離使用者身分的叢集 (請參閱「以 Dataproc 服務帳戶為基礎的多用戶群安全架構」)。
dataproc: dataproc.cluster.caching.enabled truefalse 啟用叢集快取功能後,叢集會快取 Spark 工作存取的 Cloud Storage 資料,進而提升工作效能,同時維持一致性。(預設值:false)。
dataproc dataproc.cluster-ttl.consider-yarn-activity truefalse 設定為 true 時,叢集排定刪除作業會在計算叢集閒置時間時,同時考量 YARN 和 Dataproc Jobs API 活動。將其設為 false 時,系統只會考量 Dataproc Jobs API 活動。(預設值:true)。詳情請參閱「叢集閒置時間計算」。
dataproc dataproc.conscrypt.provider.enable truefalse 啟用 (true) 或停用 (false) Conscrypt 做為主要 Java 安全性供應商。注意:Conscrypt 在 Dataproc 1.2 及更高版本中是預設為啟用,但在 1.0/1.1 中則是預設為停用。
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings 這項屬性會採用以半形逗號分隔的使用者與服務帳戶對應清單。如果叢集是使用此屬性集合建立,當使用者提交工作時,叢集會嘗試透過 Cloud Storage 連接器,在存取 Cloud Storage 時冒用對應的服務帳戶。這項功能需要 Cloud Storage 連接器 2.1.4 以上版本。詳情請參閱「Dataproc 合作多用戶群」。(預設值:empty)。
dataproc dataproc.control.max.assigned.job.tasks 100 這個屬性會限制叢集主節點可同時執行的任務數量。如果有效工作數量超過工作限制,新工作會排入佇列,直到執行中的工作完成並釋出資源,才能安排新工作。注意:不建議將預設工作限制設為超過 100 (預設值),因為這可能會導致主節點出現記憶體不足的情況。
dataproc dataproc:hudi.version Hudi 版本 設定與選用的 Dataproc Hudi 元件搭配使用的 Hudi 版本。注意:Dataproc 會設定這個版本,以便與叢集映像檔版本相容。如果是由使用者設定,如果指定的版本與叢集映像檔不相容,叢集建立作業可能會失敗。
dataproc dataproc.lineage.enabled true 為 Spark 工作在 Dataproc 叢集中啟用資料系譜
dataproc dataproc.localssd.mount.enable truefalse 是否將本機 SSD 掛接為 Hadoop/Spark 臨時目錄和 HDFS 資料目錄 (預設值:true)。
dataproc dataproc.logging.extended.enabled truefalse Cloud Logging 中啟用 (true) 或停用 (false) 以下記錄:knoxzeppelinranger-usersyncjupyter_notebookjupyter_kernel_gatewayspark-history-server (預設:false)。詳情請參閱「在 Logging 中查看 Dataproc 叢集記錄檔」。
dataproc dataproc.logging.stackdriver.enable truefalse 啟用 (true) 或停用 (false) Cloud Logging (預設值:true)。如要瞭解相關費用,請參閱 Cloud Logging 定價
dataproc dataproc.logging.stackdriver.job.driver.enable truefalse Cloud Logging 中啟用 (true) 或停用 (false) Dataproc 工作驅動程式記錄。查看 Dataproc 工作輸出內容和記錄 (預設為 false)。
dataproc dataproc.logging.stackdriver.job.yarn.container.enable truefalse Cloud Logging 中啟用 (true) 或停用 (false) YARN 容器記錄。請參閱「Spark 工作輸出選項」。(預設值:false)。
dataproc dataproc.logging.syslog.enabled truefalse Cloud Logging 中啟用 (true) 或停用 (false) VM 系統記錄 (預設值:false)。
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICESRUN_AFTER_SERVICES 對於 2.0 以上版本的映像檔叢集,如果設定為 RUN_AFTER_SERVICES,則會在 HDFS 和任何依附 HDFS 的服務完成初始化後,執行主機上的初始化動作。依賴 HDFS 的服務包括:HBase、Hive Server2、Ranger、Solr,以及 Spark 和 MapReduce 記錄伺服器。(預設值:RUN_BEFORE_SERVICES)。
dataproc dataproc.monitoring.stackdriver.enable truefalse 啟用 (true) 或停用 (false) 監控代理程式 (預設:false)。此屬性已淘汰。請參閱「啟用自訂指標收集」一文,瞭解如何在 Monitoring 中啟用 Dataproc OSS 指標收集功能。
dataproc dataproc.scheduler.driver-size-mb number 平均驅動程式記憶體占用空間,可決定叢集執行的並行工作數量上限。預設值為 1 GB。較小的值 (例如 256) 可能較適合 Spark 工作。
dataproc dataproc.scheduler.job-submission-rate number 如果超出這個速率,系統就會調節工作。預設速率為 1.0 QPS。
dataproc dataproc.scheduler.max-concurrent-jobs number 並行工作的數量上限。如果在建立叢集時未設定這個值,系統會將並行工作的上限計算為 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)masterMemoryMb 由主要 VM 的機器類型決定。masterMemoryMbPerJob 預設為 1024,但您可以在建立叢集時使用 dataproc:dataproc.scheduler.driver-size-mb 叢集屬性進行設定。
dataproc dataproc.scheduler.max-memory-used number 可使用的 RAM 容量上限。如果目前的用量超過這個門檻,就無法排定新工作。預設值為 0.9 (90%)。如果設為 1.0,主記憶體用量工作節流就會停用。
dataproc dataproc.scheduler.min-free-memory.mb number Dataproc 工作驅動程式在叢集中排定其他工作時,所需的最低可用記憶體量 (以 MB 為單位)。預設值為 256 MB。
dataproc dataproc.snap.enabled truefalse 啟用或停用 Ubuntu Snap Daemon。預設值為 true。如果設為 false,映像檔中預先安裝的 Snap 套件不會受到影響,但自動重新整理功能會停用。適用於 1.4.71、1.5.46、2.0.20 和更新版本的 Ubuntu 映像檔。
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES 對於 2.0 以下的映像檔叢集,RUN_BEFORE_SERVICES 不會設定,但使用者可以在建立叢集時設定。對於 2.0 以上版本的映像檔叢集,RUN_BEFORE_SERVICES 已設定,且屬性無法傳遞至叢集 (使用者無法變更)。如要瞭解這項設定的效果,請參閱「重要考量事項與指引:初始化處理」。
dataproc dataproc.yarn.orphaned-app-termination.enable truefalse 預設值為 true。將其設為 false,可防止 Dataproc 終止「孤立」的 YARN 應用程式。如果提交 YARN 應用程式的工作驅動程式已結束,Dataproc 會將該應用程式視為孤立的應用程式。警告:如果您使用 Spark 叢集模式 (spark.submit.deployMode=cluster) 並設定 spark.yarn.submit.waitAppCompletion=false,Spark 驅動程式就會在未等待 YARN 應用程式完成的情況下退出;在這種情況下,請設定 dataproc:dataproc.yarn.orphaned-app-termination.enable=false。如果您提交 Hive 工作,請一併將這項屬性設為 false
dataproc diagnostic.capture.enabled truefalse 啟用叢集檢查點診斷資料收集功能。(預設值:false)。
dataproc diagnostic.capture.access GOOGLE_DATAPROC_DIAGNOSE 如果設為 GOOGLE_DATAPROC_DIAGNOSE,則會將儲存在 Cloud Storage 中的叢集檢查點診斷資料與 Dataproc 支援團隊共用。(預設值:未設定)。
dataproc efm.spark.shuffle primary-worker 如果設為 primary-worker,Spark 會將 Shuffle 資料寫入主要 worker。詳情請參閱「Dataproc 強化版彈性模式」。
dataproc job.history.to-gcs.enabled truefalse 允許將 MapReduce 和 Spark 記錄檔保留至 Dataproc 暫存桶 (預設:映像檔版本 1.5 以上為 true)。使用者可以透過下列屬性覆寫工作記錄檔保留位置:mapreduce.jobhistory.done-dirmapreduce.jobhistory.intermediate-done-dirspark.eventLog.dirspark.history.fs.logDirectory。如要瞭解與 Dataproc 工作記錄和事件檔案相關的這些和其他叢集屬性,請參閱 Dataproc 持續記錄伺服器
dataproc jobs.file-backed-output.enable truefalse 設定 Dataproc 工作,將輸出內容傳送至 /var/log/google-dataproc-job 目錄中的暫存檔案。必須設為 true,才能在 Cloud Logging 中啟用工作驅動程式記錄功能 (預設值:true)。
dataproc jupyter.listen.all.interfaces truefalse 為降低透過未受保護的 Notebook 伺服器 API 執行遠端程式碼的風險,1.3 以上版本的映像檔預設為 false,這會在啟用元件 Gateway時限制連線至 localhost (127.0.0.1) (2.0 以上版本的映像檔不需要啟用元件 Gateway)。如要覆寫這項預設設定,請將這項屬性設為 true,以便允許所有連線。
dataproc jupyter.notebook.gcs.dir gs://<dir-path> 儲存 Jupyter 筆記本的 Cloud Storage 位置。
dataproc kerberos.beta.automatic-config.enable truefalse 將值設為 true 時,使用者不需要透過 --kerberos-root-principal-password--kerberos-kms-key-uri 標記指定 Kerberos 根主體密碼 (預設值:false)。詳情請參閱「透過 Kerberos 啟用 Hadoop 安全模式」。
dataproc kerberos.cross-realm-trust.admin-server hostname/address 遠端管理伺服器的主機名稱/位址 (通常與 KDC 伺服器相同)。
dataproc kerberos.cross-realm-trust.kdc hostname/address 遠端金鑰發布中心 (KDC) 的主機名稱/位址。
dataproc kerberos.cross-realm-trust.realm realm name 領域名稱可包含任何大寫 ASCII 字串。通常,此名稱會與 DNS 網域名稱相同 (大寫)。範例:如果機器名稱為「machine-id.example.west-coast.mycompany.com」,則相關聯的領域可能會指定為「EXAMPLE.WEST-COAST.MYCOMPANY.COM」。
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> KMS 加密共用密碼在 Cloud Storage 中的位置。
dataproc kerberos.kdc.db.key.uri gs://<dir-path> 含有 KDC 資料庫主金鑰的 KMS 加密檔案在 Cloud Storage 中的路徑。
dataproc kerberos.key.password.uri gs://<dir-path> KMS 加密檔案的 Cloud Storage 位置,該檔案含有 KeyStore 檔案中金鑰的密碼。
dataproc kerberos.keystore.password.uri gs://<dir-path> 含有 KeyStore 密碼的 KMS 加密檔案在 Cloud Storage 中的所在位置。
dataproc kerberos.keystore.uri1 gs://<dir-path> 在 Cloud Storage 中,含有叢集節點使用的萬用字元憑證和私密金鑰的 KeyStore 檔案位置。
dataproc kerberos.kms.key.uri KMS key URI 用於解密根密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。
dataproc kerberos.root.principal.password.uri gs://<dir-path> Kerberos 根主體密碼的 KMS 加密密碼在 Cloud Storage 中的位置。
dataproc kerberos.tgt.lifetime.hours hours 票證授權票證的生命週期上限。
dataproc kerberos.truststore.password.uri gs://<dir-path> KMS 加密檔案的 Cloud Storage 位置,該檔案含有信任儲存庫檔案的密碼。
dataproc kerberos.truststore.uri2 gs://<dir-path> 含有受信任憑證的 KMS 加密信任儲存庫檔案在 Cloud Storage 中的路徑。
dataproc pip.packages pip 套件 這個屬性會採用以逗號分隔的 Pip 套件清單,並在 base Conda 環境中安裝特定版本。詳情請參閱「Conda 相關叢集屬性」。(預設值:empty)。
dataproc ranger.kms.key.uri KMS key URI 用於解密 Ranger 管理員使用者密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。
dataproc ranger.admin.password.uri gs://<dir-path> Ranger 管理員使用者 KMS 加密密碼的 Cloud Storage 位置。
dataproc ranger.db.admin.password.uri gs://<dir-path> Ranger 資料庫管理員使用者 KMS 加密密碼的 Cloud Storage 位置。
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Cloud SQL 執行個體的連線名稱,例如 project-id:region:name.
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Cloud SQL 執行個體超級使用者 KMS 加密密碼的 Cloud Storage 位置。
dataproc ranger.cloud-sql.use-private-ip truefalse 叢集執行個體和 Cloud SQL 執行個體之間的通訊是否應透過私人 IP 進行 (預設值為 false)。
dataproc solr.gcs.path gs://<dir-path> 用於做為 Solr 主目錄的 Cloud Storage 路徑。
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Dataproc 啟動指令碼會等待多久時間,讓 hadoop-hdfs-namenode 綁定至連接埠,然後判斷啟動是否成功。系統最多可辨識 1800 秒 (30 分鐘) 的值。
dataproc startup.component.service-binding-timeout.hive-metastore seconds Dataproc 啟動指令碼會等待多久,才能判斷 hive-metastore 服務已成功繫結至連接埠。系統最多可辨識 1800 秒 (30 分鐘) 的值。
dataproc startup.component.service-binding-timeout.hive-server2 seconds Dataproc 啟動指令碼會等待多久,等待 hive-server2 繫結至連接埠,然後判斷啟動是否成功。系統最多可辨識 1800 秒 (30 分鐘) 的值。
dataproc user-attribution.enabled truefalse 將這個屬性設為 true,即可將 Dataproc 工作歸因於提交該工作的使用者身分 (預設值為 false)。
dataproc yarn.docker.enable truefalse 將其設為 true,即可啟用 Dataproc Docker on YARN 功能 (預設值為 false)。
dataproc yarn.docker.image docker image 啟用 Dataproc Docker on YARN 功能 (dataproc:yarn.docker.enable=true) 時,您可以使用這個選用屬性指定 Docker 映像檔 (例如 dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1)。如果指定了映像檔,系統會在建立叢集時下載並在叢集的所有節點中快取映像檔。
dataproc yarn.log-aggregation.enabled truefalse 允許 (true) 將 YARN 記錄匯總功能啟用至叢集的 temp bucket。值區名稱的格式如下:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>。(預設為:映像檔版本 1.5 以上為 true)。注意:刪除叢集時,系統不會刪除叢集的 temp 值區。使用者也可以覆寫 yarn.nodemanager.remote-app-log-dir YARN 屬性,設定匯總 YARN 記錄的位置。
Knox gateway.host ip address 為降低透過未受保護的 Notebook Server API 執行遠端程式碼的風險,映像檔 1.3 以上版本的預設設定為 127.0.0.1,這會在啟用元件 Gateway 時,限制與 localhost 的連線。您可以覆寫預設設定,例如將這項屬性設為 0.0.0.0 來允許所有連線。
齊柏林飛船 zeppelin.notebook.gcs.dir gs://<dir-path> 儲存 Zeppelin 筆記本的 Cloud Storage 位置。
齊柏林飛船 zeppelin.server.addr ip address 為降低透過未受保護的 Notebook Server API 執行遠端程式碼的風險,映像檔 1.3 以上版本的預設設定為 127.0.0.1,這會在啟用元件閘道時,限制與 localhost 的連線。您可以覆寫這項預設設定,例如將這項屬性設為 0.0.0.0 來允許所有連線。

1Keystore 檔案:Keystore 檔案包含 SSL 憑證。檔案格式應為 Java KeyStore (JKS)。複製到 VM 時,會將其重新命名為 keystore.jks。SSL 憑證應為萬用字元憑證,可套用至叢集中的每個節點。

2信任儲存庫檔案:信任儲存庫檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時,會將其重新命名為 truststore.jks