Apache Hadoop YARN、HDFS、Spark 和相關屬性
安裝在 Dataproc 叢集上的開放原始碼元件包含許多設定檔。例如,Apache Spark 和 Apache Hadoop 就有幾個 XML 和純文字設定檔。您可以在建立叢集時,使用 gcloud dataproc clusters create 指令的 ‑‑properties
標記,修改許多常用的設定檔。
格式設定
gcloud dataproc clusters create --properties
標記接受下列字串格式:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix 會對應至預先定義的設定檔,如下表所示;property 則會對應至檔案中的屬性。
用來分隔多個叢集資源的預設分隔符號為半形逗號 (,)。不過,如果資源值中含有半形逗號,您必須在資源清單開頭指定「^delimiter^」,才能變更分隔符號 (詳情請參閱 gcloud 主題逃逸)。
- 使用「#」分隔符的範例:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- 使用「#」分隔符的範例:
範例
gcloud 指令
如要變更 spark-defaults.conf
檔案中的 spark.master
設定,請新增下列 gcloud dataproc clusters create --properties
標記:
--properties 'spark:spark.master=spark://example.com'
您可以透過使用逗號分隔的方式,一次變更一或多個設定檔中的數個屬性。每個屬性都必須以完整的 file_prefix:property=value
格式指定。例如,如要變更 spark-defaults.conf
檔案中的 spark.master
設定和 hdfs-site.xml
檔案中的 dfs.hosts
設定,請在建立叢集時使用下列 --properties
標記:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
如要將 spark.executor.memory
設為 10g
,請在 clusters.create 要求的 SoftwareConfig 部分插入下列 properties
設定:
"properties": { "spark:spark.executor.memory": "10g" }
查看如何建構 Dataproc API 叢集 REST 要求的 JSON 主體的簡單方法,就是使用 --log-http
標記啟動對等的 gcloud
指令。以下為使用 --properties spark:spark.executor.memory=10g
標記設定叢集屬性的 gcloud dataproc clusters create
指令範例。stdout 記錄檔顯示產生的 REST 要求主體 (properties
片段顯示如下):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
輸出內容:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
如果您不想讓指令生效,請務必在輸出中出現 JSON 主體後取消指令。
控制台
如要變更 spark-defaults.conf
檔案中的 spark.master
設定,請按照下列步驟操作:
- 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。按一下「自訂叢集」面板,然後捲動至「叢集屬性」部分。
- 按一下「+ 新增屬性」。 在「前置字串」清單中選取「spark」,然後在「鍵」欄位中新增「spark.master」,並在「值」欄位中新增設定。
叢集與工作屬性
建立叢集時,系統會在叢集層級套用 Apache Hadoop YARN、HDFS、Spark 和其他檔案前置字串屬性。叢集建立後,就無法套用這些屬性。不過,這些屬性中的許多也能套用至特定工作。將屬性套用至工作時,系統不會使用檔案前置字串。
以下範例會將 Spark 執行緒記憶體設為 Spark 工作的 4g (省略 spark:
前置字串)。
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
您可以使用 gcloud dataproc jobs submit job-type --properties-file
旗標,在檔案中提交工作屬性 (例如,請參閱 Hadoop 工作提交作業的 --properties-file 說明)。
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
是一組以行分隔的 key
=value
組合。要設定的屬性是 key
,而要設為的值是 value
。如需屬性檔案格式的詳細說明,請參閱 java.util.Properties 類別。
以下是屬性檔案範例,可在提交 Dataproc 工作時傳遞至 --properties-file
標記。
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
檔案前置字串屬性表
檔案前置字串 | 檔案 | 檔案用途 |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Hadoop YARN Capacity Scheduler 設定 |
core | core-site.xml | Hadoop 一般設定 |
distcp | distcp-default.xml | Hadoop Distributed Copy 設定 |
Flink | flink-conf.yaml | Flink 設定 |
flink-log4j | log4j.properties | Log4j 設定檔 |
hadoop-env | hadoop-env.sh | Hadoop 特定環境變數 |
hadoop-log4j | log4j.properties | Log4j 設定檔 |
hbase | hbase-site.xml | HBase 設定 |
hbase-log4j | log4j.properties | Log4j 設定檔 |
hdfs | hdfs-site.xml | Hadoop HDFS 設定 |
hive | hive-site.xml | Hive 設定 |
hive-log4j2 | hive-log4j2.properties | Log4j 設定檔 |
hudi | hudi-default.conf | Hudi 設定 |
mapred | mapred-site.xml | Hadoop MapReduce 設定 |
mapred-env | mapred-env.sh | Hadoop MapReduce 特定環境變數 |
pig | pig.properties | Pig 設定 |
pig-log4j | log4j.properties | Log4j 設定檔 |
presto | config.properties | Presto 設定 |
presto-jvm | jvm.config | Presto 特定 JVM 設定 |
spark | spark-defaults.conf | Spark 設定 |
spark-env | spark-env.sh | Spark 特定環境變數 |
spark-log4j | log4j.properties | Log4j 設定檔 |
Tez | tez-site.xml | Tez 設定 |
webcat-log4j | webhcat-log4j2.properties | Log4j 設定檔 |
yarn | yarn-site.xml | Hadoop YARN 設定 |
yarn-env | yarn-env.sh | Hadoop YARN 特定環境變數 |
齊柏林飛船 | zeppelin-site.xml | Zeppelin 設定 |
zeppelin-env | zeppelin-env.sh | Zeppelin 特定環境變數 (僅限選用元件) |
zeppelin-log4j | log4j.properties | Log4j 設定檔 |
zookeeper | zoo.cfg | Zookeeper 設定 |
zookeeper-log4j | log4j.properties | Log4j 設定檔 |
附註
- 有些屬性因為攸關 Dataproc 叢集的功能所以無法覆寫,並且會被保留下來。如果您嘗試變更保留屬性,將會在建立叢集時收到錯誤訊息。
- 如要指定多個變更,可以用逗號來分隔。
--properties
標記無法修改未顯示在上表中的設定檔。- 對屬性所做的變更將在叢集上的 Daemon 啟動之前套用。
- 如果指定的屬性存在,將會更新該屬性。如果指定的屬性不存在,則會將它新增至設定檔。
Dataproc 服務屬性
本節列出的屬性僅適用於 Dataproc。這些屬性可用於進一步設定 Dataproc 叢集的功能。
格式設定
gcloud dataproc clusters create --properties
標記接受下列字串格式:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
用來分隔多個叢集資源的預設分隔符號為半形逗號 (,)。不過,如果資源值中含有半形逗號,您必須在資源清單開頭指定「^delimiter^」,才能變更分隔符號 (詳情請參閱gcloud 主題逃逸)。
- 使用「#」分隔符的範例:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- 使用「#」分隔符的範例:
範例:
建立叢集,並將強化彈性模式設為 Spark 主要工作者洗牌。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Dataproc 服務屬性資料表
屬性前置字串 | 屬性 | 值 | 說明 |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc 會在執行緒集區中同時執行使用者工作驅動程式。這項屬性可控管執行緒池中的執行緒數量下限,即使沒有執行的工作,也能快速啟動 (預設值:10)。 |
dataproc | agent.process.threads.job.max | number |
Dataproc 會在執行緒集區中同時執行使用者工作驅動程式。這項屬性可控制執行緒集區中的執行緒數量上限,因此可限制使用者工作執行的並行作業數量上限。如要提高並行處理作業的數量,請調高這個值 (預設值為 100)。 |
dataproc | am.primary_only | true 或false |
將此屬性設為 true ,以防止應用程式主要執行個體在 Dataproc 叢集先佔工作站上執行。注意:此功能僅適用於 Dataproc 1.2 及更高版本。預設值為 false 。 |
dataproc | conda.env.config.uri | gs://<path> |
Conda 環境設定檔在 Cloud Storage 中的所在位置。系統會根據這個檔案建立並啟用新的 Conda 環境。詳情請參閱「使用 Conda 相關的叢集資源屬性」。(預設值:empty )。 |
dataproc | conda.packages | Conda 套件 | 這個屬性會採用以逗號分隔的 Conda 套件清單,其中包含要在 base Conda 環境中安裝的特定版本。詳情請參閱「使用 Conda 相關的叢集資源屬性」。(預設值:empty )。 |
dataproc | dataproc.allow.zero.workers | true 或false |
在 Dataproc clusters.create API 要求中將此 SoftwareConfig 屬性設為 true ,以建立單節點叢集,這會將預設的工作站數量從 2 變更為 0,並將工作站元件放在主要主機上。您也可以透過在 Google Cloud 控制台上或使用 Google Cloud CLI 將工作站數量設為 0 來建立單節點叢集。 |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | 設定值後,系統會使用 Intel Optane DC 持續性記憶體建立 Dataproc 主機。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並且只能在白名單專案下建立。 |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | 設定值會建立使用 Intel Optane DC 持續性記憶體的 Dataproc 工作站。注意:Optane VM 只能在 us-central1-f 可用區中建立,且只能使用 n1-highmem-96-aep 機器類型,並且只能在白名單專案下建立。 |
dataproc: | dataproc.await-new-workers-service-registration | true 或false |
此屬性適用於 2.0.49 以上版本的映像檔。預設值為 false 。將這個屬性設為 true ,即可在叢集建立或叢集擴充期間,等待新的主要工作站註冊服務領導者 (例如 HDFS NameNode 和 YARN ResourceManager) (只會監控 HDFS 和 YARN 服務)。設定為 true 時,如果新 worker 無法註冊至服務,系統會為 worker 指派 FAILED 狀態。如果叢集要進行擴充,系統會移除失敗的工作站。如果叢集正在建立,如果 gcloud 指令或 API 叢集建立要求中指定了 gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE 標記或 API actionOnFailedPrimaryWorkers=DELETE 欄位,系統就會移除失敗的工作站。 |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
這項屬性會採用使用者與服務帳戶對應項目清單。已對應的使用者可以將互動式工作負載提交至具有隔離使用者身分的叢集 (請參閱「以 Dataproc 服務帳戶為基礎的多用戶群安全架構」)。 |
dataproc: | dataproc.cluster.caching.enabled | true 或false |
啟用叢集快取功能後,叢集會快取 Spark 工作存取的 Cloud Storage 資料,進而提升工作效能,同時維持一致性。(預設值:false )。 |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true 或false |
設定為 true 時,叢集排定刪除作業會在計算叢集閒置時間時,同時考量 YARN 和 Dataproc Jobs API 活動。將其設為 false 時,系統只會考量 Dataproc Jobs API 活動。(預設值:true )。詳情請參閱「叢集閒置時間計算」。 |
dataproc | dataproc.conscrypt.provider.enable | true 或false |
啟用 (true ) 或停用 (false ) Conscrypt 做為主要 Java 安全性供應商。注意:Conscrypt 在 Dataproc 1.2 及更高版本中是預設為啟用,但在 1.0/1.1 中則是預設為停用。 |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
這項屬性會採用以半形逗號分隔的使用者與服務帳戶對應清單。如果叢集是使用此屬性集合建立,當使用者提交工作時,叢集會嘗試透過 Cloud Storage 連接器,在存取 Cloud Storage 時冒用對應的服務帳戶。這項功能需要 Cloud Storage 連接器 2.1.4 以上版本。詳情請參閱「Dataproc 合作多用戶群」。(預設值:empty )。 |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
這個屬性會限制叢集主節點可同時執行的任務數量。如果有效工作數量超過工作限制,新工作會排入佇列,直到執行中的工作完成並釋出資源,才能安排新工作。注意:不建議將預設工作限制設為超過 100 (預設值),因為這可能會導致主節點出現記憶體不足的情況。 |
dataproc | dataproc:hudi.version | Hudi 版本 | 設定與選用的 Dataproc Hudi 元件搭配使用的 Hudi 版本。注意:Dataproc 會設定這個版本,以便與叢集映像檔版本相容。如果是由使用者設定,如果指定的版本與叢集映像檔不相容,叢集建立作業可能會失敗。 |
dataproc | dataproc.lineage.enabled | true |
為 Spark 工作在 Dataproc 叢集中啟用資料系譜。 |
dataproc | dataproc.localssd.mount.enable | true 或false |
是否將本機 SSD 掛接為 Hadoop/Spark 臨時目錄和 HDFS 資料目錄 (預設值:true )。 |
dataproc | dataproc.logging.extended.enabled | true 或false |
在 Cloud Logging 中啟用 (true ) 或停用 (false ) 以下記錄:knox 、zeppelin 、ranger-usersync 、jupyter_notebook 、jupyter_kernel_gateway 和 spark-history-server (預設:false )。詳情請參閱「在 Logging 中查看 Dataproc 叢集記錄檔」。 |
dataproc | dataproc.logging.stackdriver.enable | true 或false |
啟用 (true ) 或停用 (false ) Cloud Logging (預設值:true )。如要瞭解相關費用,請參閱 Cloud Logging 定價。 |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true 或false |
在 Cloud Logging 中啟用 (true ) 或停用 (false ) Dataproc 工作驅動程式記錄。查看 Dataproc 工作輸出內容和記錄 (預設為 false )。 |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true 或false |
在 Cloud Logging 中啟用 (true ) 或停用 (false ) YARN 容器記錄。請參閱「Spark 工作輸出選項」。(預設值:false )。 |
dataproc | dataproc.logging.syslog.enabled | true 或false |
在 Cloud Logging 中啟用 (true ) 或停用 (false ) VM 系統記錄 (預設值:false )。 |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES 或RUN_AFTER_SERVICES |
對於 2.0 以上版本的映像檔叢集,如果設定為 RUN_AFTER_SERVICES ,則會在 HDFS 和任何依附 HDFS 的服務完成初始化後,執行主機上的初始化動作。依賴 HDFS 的服務包括:HBase、Hive Server2、Ranger、Solr,以及 Spark 和 MapReduce 記錄伺服器。(預設值:RUN_BEFORE_SERVICES )。 |
dataproc | dataproc.monitoring.stackdriver.enable | true 或false |
啟用 (true ) 或停用 (false ) 監控代理程式 (預設:false )。此屬性已淘汰。請參閱「啟用自訂指標收集」一文,瞭解如何在 Monitoring 中啟用 Dataproc OSS 指標收集功能。 |
dataproc | dataproc.scheduler.driver-size-mb | number |
平均驅動程式記憶體占用空間,可決定叢集執行的並行工作數量上限。預設值為 1 GB。較小的值 (例如 256 ) 可能較適合 Spark 工作。 |
dataproc | dataproc.scheduler.job-submission-rate | number |
如果超出這個速率,系統就會調節工作。預設速率為 1.0 QPS。 |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
並行工作的數量上限。如果在建立叢集時未設定這個值,系統會將並行工作的上限計算為 max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) 。masterMemoryMb 由主要 VM 的機器類型決定。masterMemoryMbPerJob 預設為 1024 ,但您可以在建立叢集時使用 dataproc:dataproc.scheduler.driver-size-mb 叢集屬性進行設定。 |
dataproc | dataproc.scheduler.max-memory-used | number |
可使用的 RAM 容量上限。如果目前的用量超過這個門檻,就無法排定新工作。預設值為 0.9 (90%)。如果設為 1.0 ,主記憶體用量工作節流就會停用。 |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Dataproc 工作驅動程式在叢集中排定其他工作時,所需的最低可用記憶體量 (以 MB 為單位)。預設值為 256 MB。 |
dataproc | dataproc.snap.enabled | true 或false |
啟用或停用 Ubuntu Snap Daemon。預設值為 true 。如果設為 false ,映像檔中預先安裝的 Snap 套件不會受到影響,但自動重新整理功能會停用。適用於 1.4.71、1.5.46、2.0.20 和更新版本的 Ubuntu 映像檔。 |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
對於 2.0 以下的映像檔叢集,RUN_BEFORE_SERVICES 不會設定,但使用者可以在建立叢集時設定。對於 2.0 以上版本的映像檔叢集,RUN_BEFORE_SERVICES 已設定,且屬性無法傳遞至叢集 (使用者無法變更)。如要瞭解這項設定的效果,請參閱「重要考量事項與指引:初始化處理」。 |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true 或false |
預設值為 true 。將其設為 false ,可防止 Dataproc 終止「孤立」的 YARN 應用程式。如果提交 YARN 應用程式的工作驅動程式已結束,Dataproc 會將該應用程式視為孤立的應用程式。警告:如果您使用 Spark 叢集模式 (spark.submit.deployMode=cluster ) 並設定 spark.yarn.submit.waitAppCompletion=false ,Spark 驅動程式就會在未等待 YARN 應用程式完成的情況下退出;在這種情況下,請設定 dataproc:dataproc.yarn.orphaned-app-termination.enable=false 。如果您提交 Hive 工作,請一併將這項屬性設為 false 。 |
dataproc | diagnostic.capture.enabled | true 或false |
啟用叢集檢查點診斷資料收集功能。(預設值:false )。 |
dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE |
如果設為 GOOGLE_DATAPROC_DIAGNOSE ,則會將儲存在 Cloud Storage 中的叢集檢查點診斷資料與 Dataproc 支援團隊共用。(預設值:未設定)。 |
dataproc | efm.spark.shuffle | primary-worker |
如果設為 primary-worker ,Spark 會將 Shuffle 資料寫入主要 worker。詳情請參閱「Dataproc 強化版彈性模式」。 |
dataproc | job.history.to-gcs.enabled | true 或false |
允許將 MapReduce 和 Spark 記錄檔保留至 Dataproc 暫存桶 (預設:映像檔版本 1.5 以上為 true )。使用者可以透過下列屬性覆寫工作記錄檔保留位置:mapreduce.jobhistory.done-dir 、mapreduce.jobhistory.intermediate-done-dir 、spark.eventLog.dir 和 spark.history.fs.logDirectory 。如要瞭解與 Dataproc 工作記錄和事件檔案相關的這些和其他叢集屬性,請參閱 Dataproc 持續記錄伺服器 。 |
dataproc | jobs.file-backed-output.enable | true 或false |
設定 Dataproc 工作,將輸出內容傳送至 /var/log/google-dataproc-job 目錄中的暫存檔案。必須設為 true ,才能在 Cloud Logging 中啟用工作驅動程式記錄功能 (預設值:true )。 |
dataproc | jupyter.listen.all.interfaces | true 或false |
為降低透過未受保護的 Notebook 伺服器 API 執行遠端程式碼的風險,1.3 以上版本的映像檔預設為 false ,這會在啟用元件 Gateway時限制連線至 localhost (127.0.0.1 ) (2.0 以上版本的映像檔不需要啟用元件 Gateway)。如要覆寫這項預設設定,請將這項屬性設為 true ,以便允許所有連線。 |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
儲存 Jupyter 筆記本的 Cloud Storage 位置。 |
dataproc | kerberos.beta.automatic-config.enable | true 或false |
將值設為 true 時,使用者不需要透過 --kerberos-root-principal-password 和 --kerberos-kms-key-uri 標記指定 Kerberos 根主體密碼 (預設值:false )。詳情請參閱「透過 Kerberos 啟用 Hadoop 安全模式」。 |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
遠端管理伺服器的主機名稱/位址 (通常與 KDC 伺服器相同)。 |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
遠端金鑰發布中心 (KDC) 的主機名稱/位址。 |
dataproc | kerberos.cross-realm-trust.realm | realm name |
領域名稱可包含任何大寫 ASCII 字串。通常,此名稱會與 DNS 網域名稱相同 (大寫)。範例:如果機器名稱為「machine-id.example.west-coast.mycompany.com」,則相關聯的領域可能會指定為「EXAMPLE.WEST-COAST.MYCOMPANY.COM」。 |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
KMS 加密共用密碼在 Cloud Storage 中的位置。 |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
含有 KDC 資料庫主金鑰的 KMS 加密檔案在 Cloud Storage 中的路徑。 |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
KMS 加密檔案的 Cloud Storage 位置,該檔案含有 KeyStore 檔案中金鑰的密碼。 |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
含有 KeyStore 密碼的 KMS 加密檔案在 Cloud Storage 中的所在位置。 |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
在 Cloud Storage 中,含有叢集節點使用的萬用字元憑證和私密金鑰的 KeyStore 檔案位置。 |
dataproc | kerberos.kms.key.uri | KMS key URI |
用於解密根密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。 |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Kerberos 根主體密碼的 KMS 加密密碼在 Cloud Storage 中的位置。 |
dataproc | kerberos.tgt.lifetime.hours | hours |
票證授權票證的生命週期上限。 |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
KMS 加密檔案的 Cloud Storage 位置,該檔案含有信任儲存庫檔案的密碼。 |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
含有受信任憑證的 KMS 加密信任儲存庫檔案在 Cloud Storage 中的路徑。 |
dataproc | pip.packages | pip 套件 | 這個屬性會採用以逗號分隔的 Pip 套件清單,並在 base Conda 環境中安裝特定版本。詳情請參閱「Conda 相關叢集屬性」。(預設值:empty )。 |
dataproc | ranger.kms.key.uri | KMS key URI |
用於解密 Ranger 管理員使用者密碼的 KMS 金鑰 URI,例如 projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (請參閱「金鑰資源 ID」)。 |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Ranger 管理員使用者 KMS 加密密碼的 Cloud Storage 位置。 |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Ranger 資料庫管理員使用者 KMS 加密密碼的 Cloud Storage 位置。 |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Cloud SQL 執行個體的連線名稱,例如 project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Cloud SQL 執行個體超級使用者 KMS 加密密碼的 Cloud Storage 位置。 |
dataproc | ranger.cloud-sql.use-private-ip | true 或false |
叢集執行個體和 Cloud SQL 執行個體之間的通訊是否應透過私人 IP 進行 (預設值為 false )。 |
dataproc | solr.gcs.path | gs://<dir-path> |
用於做為 Solr 主目錄的 Cloud Storage 路徑。 |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Dataproc 啟動指令碼會等待多久時間,讓 hadoop-hdfs-namenode 綁定至連接埠,然後判斷啟動是否成功。系統最多可辨識 1800 秒 (30 分鐘) 的值。 |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Dataproc 啟動指令碼會等待多久,才能判斷 hive-metastore 服務已成功繫結至連接埠。系統最多可辨識 1800 秒 (30 分鐘) 的值。 |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Dataproc 啟動指令碼會等待多久,等待 hive-server2 繫結至連接埠,然後判斷啟動是否成功。系統最多可辨識 1800 秒 (30 分鐘) 的值。 |
dataproc | user-attribution.enabled | true 或false |
將這個屬性設為 true ,即可將 Dataproc 工作歸因於提交該工作的使用者身分 (預設值為 false )。 |
dataproc | yarn.docker.enable | true 或false |
將其設為 true ,即可啟用 Dataproc Docker on YARN 功能 (預設值為 false )。 |
dataproc | yarn.docker.image | docker image |
啟用 Dataproc Docker on YARN 功能 (dataproc:yarn.docker.enable=true ) 時,您可以使用這個選用屬性指定 Docker 映像檔 (例如 dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 )。如果指定了映像檔,系統會在建立叢集時下載並在叢集的所有節點中快取映像檔。 |
dataproc | yarn.log-aggregation.enabled | true 或false |
允許 (true ) 將 YARN 記錄匯總功能啟用至叢集的 temp bucket 。值區名稱的格式如下:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> 。(預設為:映像檔版本 1.5 以上為 true )。注意:刪除叢集時,系統不會刪除叢集的 temp 值區。使用者也可以覆寫 yarn.nodemanager.remote-app-log-dir YARN 屬性,設定匯總 YARN 記錄的位置。 |
Knox | gateway.host | ip address |
為降低透過未受保護的 Notebook Server API 執行遠端程式碼的風險,映像檔 1.3 以上版本的預設設定為 127.0.0.1 ,這會在啟用元件 Gateway 時,限制與 localhost 的連線。您可以覆寫預設設定,例如將這項屬性設為 0.0.0.0 來允許所有連線。 |
齊柏林飛船 | zeppelin.notebook.gcs.dir | gs://<dir-path> |
儲存 Zeppelin 筆記本的 Cloud Storage 位置。 |
齊柏林飛船 | zeppelin.server.addr | ip address |
為降低透過未受保護的 Notebook Server API 執行遠端程式碼的風險,映像檔 1.3 以上版本的預設設定為 127.0.0.1 ,這會在啟用元件閘道時,限制與 localhost 的連線。您可以覆寫這項預設設定,例如將這項屬性設為 0.0.0.0 來允許所有連線。 |
1Keystore 檔案:Keystore 檔案包含 SSL 憑證。檔案格式應為 Java KeyStore (JKS)。複製到 VM 時,會將其重新命名為 keystore.jks
。SSL 憑證應為萬用字元憑證,可套用至叢集中的每個節點。
2信任儲存庫檔案:信任儲存庫檔案應採用 Java KeyStore (JKS) 格式。複製到 VM 時,會將其重新命名為 truststore.jks
。