クラスタ プロパティ

Dataproc クラスタにインストールされるオープンソース コンポーネントには、多くの構成ファイルが含まれます。たとえば、Apache Spark と Apache Hadoop には XML と書式なしテキストの構成ファイルがいくつか含まれています。gcloud dataproc clusters create コマンドの ‑‑properties フラグを使用すると、クラスタの作成時に、多くの一般的な構成ファイルを変更できます。

書式設定

gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix は、次の表に示す定義済みの構成ファイルにマッピングされ、property はファイル内のプロパティにマッピングされます。

  • 複数のクラスタ プロパティを区切るために使用されるデフォルトの区切り文字はカンマ(,)です。ただし、プロパティ値にカンマが含まれている場合は、プロパティ リストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります(gcloud トピックのエスケープをご覧ください)。

    • 「#」区切り文字の使用例
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

gcloud コマンド

spark-defaults.conf ファイルの spark.master 設定を変更するには、次の gcloud dataproc clusters create --properties フラグを追加します。

--properties 'spark:spark.master=spark://example.com'

1 つ以上の構成ファイルで複数のプロパティを一度に変更する場合は、区切り文字としてカンマを使用します。各プロパティは完全な file_prefix:property=value 形式で指定する必要があります。たとえば、spark-defaults.conf ファイルの spark.master 設定と hdfs-site.xml ファイルの dfs.hosts 設定を変更するには、クラスタの作成時に次の --properties フラグを使用します。

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

spark.executor.memory10g に設定するには、clusters.create リクエストの SoftwareConfig セクションに次の properties 設定を挿入します。

"properties": {
  "spark:spark.executor.memory": "10g"
}

Dataproc API クラスタの REST リクエストの JSON 本文を簡単に調べて作成するには、--log-http フラグを使用して同等の gcloud コマンドを開始します。次に示すのは、gcloud dataproc clusters create コマンドのサンプルです。このコマンドは、クラスタ プロパティを --properties spark:spark.executor.memory=10g フラグを使用して設定します。 stdout ログは、この結果生成される REST リクエストの本文を示します(properties スニペットを以下に示します)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

出力:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

コマンドを有効にしたくない場合は、出力に JSON 本文が表示された後にコマンドをキャンセルしてください。

Console

spark-defaults.conf ファイルの spark.master 設定を変更するには:

  1. Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスタのカスタマイズ] パネルをクリックし、[クラスタ プロパティ] セクションまでスクロールします。

  2. [+ プロパティを追加] をクリックします。 [プレフィックス] リストで [spark] を選択し、[キー] フィールドに「spark.master」と入力し、[値] フィールドに設定を追加します。

クラスタ プロパティとジョブ プロパティの比較

Apache Hadoop YARN、HDFS、Spark などのファイル接頭辞が付いたプロパティは、クラスタの作成時にクラスタレベルで適用されます。これらのプロパティは、クラスタの作成後にクラスタに適用できません。 ただし、これらのプロパティの多くは特定のジョブにも適用できます。ジョブにプロパティを適用する場合、ファイル接頭辞は使用されません

次の例では、Spark ジョブの Spark エグゼキュータのメモリを 4G に設定します(spark: 接頭辞は省略)。

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

ジョブのプロパティは、gcloud dataproc jobs submit job-type --properties-file フラグを使用してファイルで送信できます(たとえば、Hadoop ジョブの送信についての --properties-file の説明をご覧ください)。

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE は、行区切りの key=value ペアのセットです。設定するプロパティは key で、プロパティに設定する値は value です。プロパティ ファイル形式の詳細については、java.util.Properties クラスをご覧ください。

以下は、Dataproc ジョブの送信時に --properties-file フラグに渡すことができるプロパティ ファイルの例です。

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

ファイル プレフィックス付きのプロパティ テーブル

ファイル接頭辞 ファイル ファイルの目的
capacity-scheduler capacity-scheduler.xml Hadoop YARN キャパシティ スケジューラの構成
core core-site.xml Hadoop 全般構成
distcp distcp-default.xml Hadoop 分散コピー構成
flink flink-conf.yaml Flink 構成
flink-log4j log4j.properties Log4j 設定ファイル
hadoop-env hadoop-env.sh Hadoop 固有の環境変数
hadoop-log4j log4j.properties Log4j 設定ファイル
hbase hbase-site.xml HBase の構成
hbase-log4j log4j.properties Log4j 設定ファイル
hdfs hdfs-site.xml Hadoop HDFS 構成
hive hive-site.xml Hive 構成
hive-log4j2 hive-log4j2.properties Log4j 設定ファイル
hudi hudi-default.conf Hudi の構成
mapred mapred-site.xml Hadoop MapReduce 構成
mapred-env mapred-env.sh Hadoop MapReduce 固有の環境変数
pig pig.properties Pig 構成
pig-log4j log4j.properties Log4j 設定ファイル
presto config.properties Presto 構成
presto-jvm jvm.config Presto 固有の JVM 構成
spark spark-defaults.conf Spark 構成
spark-env spark-env.sh Spark 固有の環境変数
spark-log4j log4j.properties Log4j 設定ファイル
tez tez-site.xml Tez の構成
webcat-log4j webhcat-log4j2.properties Log4j 設定ファイル
yarn yarn-site.xml Hadoop YARN 構成
yarn-env yarn-env.sh Hadoop YARN 固有の環境変数
zeppelin zeppelin-site.xml Zeppelin の構成
zeppelin-env zeppelin-env.sh Zeppelin 固有の環境変数(オプション コンポーネントのみ)
zeppelin-log4j log4j.properties Log4j 設定ファイル
zookeeper zoo.cfg Zookeeper の構成
zookeeper-log4j log4j.properties Log4j 設定ファイル

  • 一部のプロパティは予約され、Dataproc クラスタの機能に影響するため、上書きすることはできません。予約済みのプロパティを変更しようとすると、クラスタを作成するときにエラー メッセージが表示されます。
  • 複数の変更を指定する場合は、各変更をカンマで区切ります。
  • --properties フラグでは、上記以外の構成ファイルは変更できません。
  • プロパティの変更は、クラスタに対するデーモンが起動するに適用されます。
  • 指定したプロパティが存在する場合は、そのプロパティが更新されます。指定したプロパティが存在しない場合は、そのプロパティが構成ファイルに追加されます。

Dataproc サービスのプロパティ

このセクションで示すプロパティは Dataproc に固有のものです。これらのプロパティは、Dataproc クラスタの機能をさらに構成するのに使用できます。

書式設定

gcloud dataproc clusters create --properties フラグには、次の文字列形式を指定できます。

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • 複数のクラスタ プロパティを区切るために使用されるデフォルトの区切り文字はカンマ(,)です。ただし、プロパティ値にカンマが含まれている場合は、プロパティ リストの先頭に区切り文字「^delimiter^」を指定して区切り文字を変更する必要があります(gcloud トピックのエスケープをご覧ください)。

    • 「#」区切り文字の使用例
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

例:

クラスタを作成して Spark プライマリ ワーカーのシャッフルに [高度な柔軟性モード] を設定します。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Dataproc サービスのプロパティ テーブル

プロパティの接頭辞 プロパティ 説明
dataproc agent.process.threads.job.min number Dataproc は、スレッドプール内でユーザージョブ ドライバを同時に実行します。このプロパティは、ジョブが実行されていなくても、高速起動のスレッドプールの最小スレッド数を制御します(デフォルトは 10)。
dataproc agent.process.threads.job.max number Dataproc は、スレッドプール内でユーザージョブ ドライバを同時に実行します。このプロパティはスレッドプール内の最大スレッド数を制御します。ユーザージョブの最大同時実行数はこの数までに制限されます。同時実行数を大きくするにはこの値を増やします(デフォルト: 100)。
dataproc am.primary_only true または false このプロパティをtrueに設定すると、Dataproc クラスタのリエンプティブル ワーカーでアプリケーション マスターが実行されなくなります。: この機能は Dataproc 1.2 以降でのみ使用できます。デフォルト値は false です。
dataproc conda.env.config.uri gs://<path> Conda 環境構成ファイルの Cloud Storage 内の場所。このファイルに基づいて新しい Conda 環境が作成され、有効化されます。詳細については、Conda 関連のクラスタ プロパティの使用をご覧ください。(デフォルト: empty
dataproc conda.packages Conda packages このプロパティには、base Conda 環境にインストールされる、カンマで区切られた特定バージョンConda パッケージのリストを指定します。詳細については、Conda 関連のクラスタ プロパティの使用をご覧ください。(デフォルト: empty
dataproc dataproc.allow.zero.workers true または false Dataproc clusters.create API リクエストで、この SoftwareConfig プロパティを true に設定して、単一ノードクラスタを作成します。これにより、ワーカーのデフォルト数が 2 から 0 に変更され、ワーカー コンポーネントがマスターホストに配置されます。単一ノードクラスタは、Google Cloud コンソールまたは Google Cloud CLI を使用して作成することもでき、その際ワーカー数を 0 に設定します。
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc マスターが作成されます。注: Optane VM はus-central1-fゾーン、n1-highmem-96-aepマシンタイプ、ホワイトリスト登録済みプロジェクトでのみ作成できます。
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 値を設定すると、Intel Optane DC Persistent Memory を使用して Dataproc ワーカーが作成されます。注: Optane VM はus-central1-fゾーン、n1-highmem-96-aepマシンタイプ、ホワイトリスト登録済みプロジェクトでのみ作成できます。
dataproc: dataproc.await-new-workers-service-registration true または false このプロパティは、イメージ 2.0.49+ で使用できます。デフォルト値は false です。このプロパティを true に設定すると、クラスタの作成時またはスケールアップ中に、新しいプライマリ ワーカーが HDFS NameNode や YARN ResourceManager などのサービス リーダーを登録するのを待ちます(HDFS と YARN サービスのみがモニタリングされます)。true に設定すると、新しいワーカーがサービスに登録できなかった場合、ワーカーに FAILED ステータスが割り当てられます。クラスタがスケールアップされている場合、障害が発生したワーカーは削除されます。クラスタが作成中の場合、gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE フラグまたは API actionOnFailedPrimaryWorkers=DELETE フィールドが gcloud コマンドまたは API クラスタ作成リクエストの一部として指定されていれば、失敗したワーカーは削除されます。
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings このプロパティには、ユーザー アカウントとサービス アカウントのマッピングのリストが入ります。マッピングされたユーザーは、独立したユーザー ID を使用してインタラクティブなワークロードをクラスタに送信できます(Dataproc サービス アカウント ベースの安全なマルチテナンシーをご覧ください)。
dataproc: dataproc.cluster.caching.enabled true または false クラスタ キャッシュが有効になっている場合、クラスタは Spark ジョブによってアクセスされる Cloud Storage データをキャッシュに保存するため、整合性を損なうことなくジョブのパフォーマンスが向上します。(デフォルト: false
dataproc dataproc.cluster-ttl.consider-yarn-activity true または false true に設定すると、クラスタのアイドル時間を計算する際に、クラスタのスケジュール設定された削除で YARN と Dataproc Jobs API の両方のアクティビティが考慮されます。false に設定すると、Dataproc Jobs API アクティビティのみが考慮されます。(デフォルト: true)。詳細については、クラスタのアイドル時間の計算をご覧ください。
dataproc dataproc.conscrypt.provider.enable true または false Conscrypt をプライマリ Java セキュリティ プロバイダとして有効(true)または無効(false)にします。: Conscrypt は、Dataproc 1.2 以降ではデフォルトで有効になっていますが、1.0 / 1.1 では無効になっています。
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings このプロパティは、ユーザー アカウントとサービス アカウントのカンマ区切りのマッピングのリストを取得します。このプロパティ セットでクラスタを作成した場合、ユーザーがジョブを送信すると、クラスタは Cloud Storage コネクタを介して Cloud Storage にアクセスする際に、対応するサービス アカウントの権限を借用しようとします。この機能を使用するには、Cloud Storage コネクタのバージョン 2.1.4 以降が必要です。詳細については、Dataproc 協調型マルチテナンシーをご覧ください。(デフォルト: empty
dataproc dataproc.control.max.assigned.job.tasks 100 このプロパティは、クラスタ マスターノードで同時に実行できるタスクの数を制限します。アクティブなタスク数がタスクの上限を超えると、実行中のジョブが完了し、リソースが解放されて新しいタスクのスケジュールが可能になるまで、新しいジョブはキューに登録されます。注: マスターノードでメモリ不足が発生する可能性があるため、デフォルトのタスク上限を 100(デフォルト)を超えて設定することはおすすめしません。
dataproc dataproc:hudi.version Hudi のバージョン オプションの Dataproc Hudi コンポーネントで使用される Hudi のバージョンを設定します。注: このバージョンは、クラスタ イメージ バージョンとの互換性を確保するために Dataproc によって設定されます。ユーザーが設定した場合、指定したバージョンがクラスタ イメージと互換性がない場合にはクラスタの作成に失敗することがあります。
dataproc dataproc.lineage.enabled true Spark ジョブ用に Dataproc クラスタでデータリネージを有効にします。
dataproc dataproc.localssd.mount.enable true または false ローカル SSD を Hadoop / Spark 一時ディレクトリおよび HDFS データ ディレクトリとしてマウントするかどうか(デフォルト: true)。
dataproc dataproc.logging.stackdriver.enable true または false Cloud Logging を有効(true)または無効(false)にします(デフォルト: true)。関連する料金については、Cloud Logging の料金をご覧ください。
dataproc dataproc.logging.stackdriver.job.driver.enable true または false Cloud Logging の Dataproc ジョブドライバ ログを有効(true)または無効(false)にします。Dataproc ジョブの出力とログ(デフォルト: false)をご覧ください。
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true または false Cloud Logging の YARN コンテナログを有効(true)または無効(false)にします。Spark ジョブの出力オプションをご覧ください。(デフォルト: false
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES または RUN_AFTER_SERVICES 2.0 以降のイメージ クラスタの場合は、RUN_AFTER_SERVICES に設定すると、マスターでの初期化アクションは、HDFS と HDFS に依存するサービスが初期化された後に実行されます。HDFS に依存するサービスの例としては、HBase、Hive Server2、Ranger、Solr、Spark と MapReduce 履歴サーバーなどがあります。(デフォルト: RUN_BEFORE_SERVICES).
dataproc dataproc.monitoring.stackdriver.enable true または false Monitoring エージェントを有効(true)または無効(false)にします(デフォルト: false)。このプロパティは非推奨になりました。Monitoring で Dataproc カスタム指標コレクションの収集を有効にするには、OSS 指標の収集を有効にするをご覧ください。
dataproc dataproc.scheduler.driver-size-mb number あるクラスタが実行する同時実行ジョブの最大数を決定する平均ドライバメモリ フットプリント。デフォルト値は 1 GB です。Spark ジョブでは、256 などのより小さな値が適切な場合があります。
dataproc dataproc.scheduler.job-submission-rate number このレートを超えると、ジョブがスロットリングされます。デフォルトのレートは 1.0 QPS です。
dataproc dataproc.scheduler.max-concurrent-jobs number 同時実行ジョブの最大数。クラスタの作成時にこの値が設定されていない場合、同時ジョブの上限は max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) として計算されます。masterMemoryMb は、マスター VM のマシンタイプによって決まります。masterMemoryMbPerJob はデフォルトで 1024 ですが、クラスタの作成時に dataproc:dataproc.scheduler.driver-size-mb クラスタ プロパティで構成できます。
dataproc dataproc.scheduler.max-memory-used number 使用できる RAM の最大容量。現在の使用量がこのしきい値を超えると、新しいジョブのスケジュールを設定できません。デフォルトは 0.9(90%)です。1.0 に設定すると、master-memory-utilization ジョブ スロットリングが無効になります。
dataproc dataproc.scheduler.min-free-memory.mb number Dataproc ジョブドライバがクラスタ上の別のジョブのスケジュールを設定するために必要とする最小空きメモリ(MB 単位)。デフォルトは 256 MB です。
dataproc dataproc.snap.enabled true または false Ubuntu スナップ デーモンを有効または無効にします。デフォルト値は true です。false に設定した場合、イメージにプリインストールされている Snap パッケージは影響を受けませんが、自動更新は無効になります。1.4.71、1.5.46、2.0.20 以降の Ubuntu イメージに適用されます。
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES 2.0 より前のイメージのクラスタの場合、RUN_BEFORE_SERVICES は設定されませんが、クラスタの作成時にユーザーが設定できます。2.0 以降のイメージのクラスタの場合、RUN_BEFORE_SERVICES が設定されそのプロパティはクラスタに渡せません(ユーザーはそれを変更できません)。この設定の影響については、初期化アクション - 重要な考慮事項とガイドラインをご覧ください。
dataproc dataproc.yarn.orphaned-app-termination.enable true または false デフォルト値は true です。false に設定して、Dataproc が「孤立した」YARN アプリを終了しないようにします。Dataproc は、YARN アプリを送信したジョブドライバが終了した場合、YARN アプリが孤立しているとみなします。警告: Spark クラスタモード(spark.submit.deployMode=cluster)を使用していて、spark.yarn.submit.waitAppCompletion=false を設定すると、Spark ドライバは YARN アプリの完了を待たずに終了します。この場合は、dataproc:dataproc.yarn.orphaned-app-termination.enable=false を設定します。Hive ジョブを送信する場合は、このプロパティも false に設定します。
dataproc efm.spark.shuffle primary-worker primary-worker に設定した場合、Spark シャッフル データはプライマリ ワーカーに書き込まれます。詳細については、Dataproc の高度な柔軟性モードをご覧ください。
dataproc job.history.to-gcs.enabled true または false MapReduce と Spark の履歴ファイルを Dataproc の一時バケットで永続化することを許可します(イメージ バージョン 1.5 以降の場合のデフォルト: true)。ジョブ履歴ファイルの永続化の場所は、mapreduce.jobhistory.done-dirmapreduce.jobhistory.intermediate-done-dirspark.eventLog.dirspark.history.fs.logDirectory のプロパティから上書きできます。上述のプロパティおよび Dataproc ジョブ履歴ファイルとイベント ファイルに関連するその他のクラスタ プロパティについては、Dataproc の永続履歴サーバーをご覧ください。
dataproc jobs.file-backed-output.enable true または false Dataproc ジョブが /var/log/google-dataproc-job ディレクトリ内の一時ファイルに出力をパイプするように構成します。Cloud Logging でのジョブドライバ ロギングを有効にするには、true に設定する必要があります(デフォルト: true)。
dataproc jupyter.listen.all.interfaces true または false セキュアでないノートブック サーバーの API を介したリモートコード実行のリスクを軽減するため、イメージ バージョン 1.3 以上では、デフォルトの設定は false になっています。この設定では、コンポーネント ゲートウェイが有効な場合、localhost127.0.0.1)への接続が制限されます(2.0 以上のイメージではコンポーネント ゲートウェイの有効化は必要ありません)。このデフォルト設定は、このプロパティを true に設定することでオーバーライドできます。
dataproc jupyter.notebook.gcs.dir gs://<dir-path> Jupyter ノートブックを保存する Cloud Storage 内の場所。
dataproc kerberos.beta.automatic-config.enable true または false true に設定すると、ユーザーは --kerberos-root-principal-password フラグと --kerberos-kms-key-uri フラグを指定して Kerberos ルート プリンシパルのパスワードを指定する必要がなくなります(デフォルト: false)。詳細については、Kerberos による Hadoop セキュアモードの有効化をご覧ください。
dataproc kerberos.cross-realm-trust.admin-server hostname/address リモート管理サーバーのホスト名 / アドレス(たいてい KDC サーバーと同じ)。
dataproc kerberos.cross-realm-trust.kdc hostname/address リモート KDC のホスト名 / アドレス。
dataproc kerberos.cross-realm-trust.realm realm name レルム名には大文字の ASCII 文字列を使用できます。通常レルム名は、使用している DNS ドメイン名と同じです(大文字)。例:マシンの名前が「machine-id.example.west-coast.mycompany.com」の場合、それに対応するレルムは「EXAMPLE.WEST-COAST.MYCOMPANY.COM」と指定します。
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> KMS 暗号化共有パスワードの Cloud Storage 内の場所。
dataproc kerberos.kdc.db.key.uri gs://<dir-path> KDC データベース マスターキーを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc kerberos.key.password.uri gs://<dir-path> キーストア ファイル内のキーのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc kerberos.keystore.password.uri gs://<dir-path> キーストアのパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc kerberos.keystore.uri1 gs://<dir-path> クラスタノードによって使用されるワイルドカード証明書と秘密鍵を含むキーストア ファイルの Cloud Storage 内の場所。
dataproc kerberos.kms.key.uri KMS key URI root パスワードの復号に使用される KMS 鍵の URI。たとえば、projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key鍵のリソース ID をご覧ください)。
dataproc kerberos.root.principal.password.uri gs://<dir-path> Kerberos root プリンシパルの KMS 暗号化パスワードの Cloud Storage 内の場所。
dataproc kerberos.tgt.lifetime.hours hours チケットを付与するチケットの最大存続時間。
dataproc kerberos.truststore.password.uri gs://<dir-path> トラストストア ファイルに対するパスワードを含む KMS 暗号化ファイルの Cloud Storage 内の場所。
dataproc kerberos.truststore.uri2 gs://<dir-path> 信頼された証明書を含む KMS 暗号化トラストストア ファイルの Cloud Storage 内の場所。
dataproc pip.packages Pip パッケージ このプロパティは、base Conda 環境にインストールされる特定のバージョンの、カンマ区切りの Pip パッケージのリストを受け取ります。詳細については、Conda 関連のクラスタ プロパティをご覧ください。(デフォルト: empty
dataproc ranger.kms.key.uri KMS key URI Ranger 管理者のユーザー パスワードの復号に使用される KMS 鍵の URI。たとえば、projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key鍵のリソース ID をご覧ください)。
dataproc ranger.admin.password.uri gs://<dir-path> Ranger 管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。
dataproc ranger.db.admin.password.uri gs://<dir-path> Ranger データベース管理者の KMS 暗号化パスワードが存在する Cloud Storage 内の場所。
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Cloud SQL インスタンスの接続名(例: project-id:region:name.
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Cloud SQL インスタンスの root ユーザーの KMS 暗号化パスワードが存在するCloud Storage 内の場所。
dataproc ranger.cloud-sql.use-private-ip true または false クラスタ インスタンスと Cloud SQL インスタンス間の通信にプライベート IP を使用するかどうか(デフォルト値は false)。
dataproc solr.gcs.path gs://<dir-path> Solr のホーム ディレクトリとして機能する Cloud Storage パス。
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds hadoop-hdfs-namenode がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが待機する時間。認識される最大値は 1,800 秒(30 分)です。
dataproc startup.component.service-binding-timeout.hive-metastore seconds hive-metastore service がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが 待機する時間。認識される最大値は 1,800 秒(30 分)です。
dataproc startup.component.service-binding-timeout.hive-server2 seconds hive-server2 がポートにバインドされ起動が成功したと判断できるまで、Dataproc 起動スクリプトが 待機する時間。認識される最大値は 1,800 秒(30 分)です。
dataproc user-attribution.enabled true または false このプロパティを true に設定すると、Dataproc ジョブを送信したユーザーの ID に帰属させます(デフォルト値は false)。
dataproc yarn.docker.enable true または false Dataproc の機能 Docker on YARN を有効にするには、true に設定します(デフォルト値は false)。
dataproc yarn.docker.image docker image Dataproc の機能 Docker on YARNdataproc:yarn.docker.enable=true)を有効にする場合は、このオプションのプロパティを使用して Docker イメージ(dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 など)を指定できます。指定すると、イメージは、クラスタの作成時にクラスタのすべてのノードにダウンロードされ、キャッシュに保存されます。
dataproc yarn.log-aggregation.enabled true または false クラスタの temp bucket への YARN ログ集計を有効にするのを許可(true)します。バケット名の形式は dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> です。(イメージ バージョン 1.5 以降の場合のデフォルト: true)。注: クラスタを削除しても、クラスタの一時バケットは削除されません。また、yarn.nodemanager.remote-app-log-dir YARN プロパティを上書きすることで、集計された YARN ログの場所を設定することもできます。
knox gateway.host ip address セキュリティで保護されていないノートブックサーバー API を介したリモートコード実行のリスクを軽減するため、イメージバージョン 1.3 以降のデフォルト設定は 127.0.0.1 となっています。この設定は、コンポーネントゲートウェイが有効となっている時に、localhost への接続を制限します。デフォルトの設定は、たとえばこのプロパティを 0.0.0.0 に設定してすべての接続を許可することで、オーバーライドできます。
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Zeppelin ノートブックを保存する Cloud Storage 内の場所。
zeppelin zeppelin.server.addr ip address セキュリティで保護されていないノートブックサーバー API を介したリモートコード実行のリスクを軽減するため、イメージバージョン 1.3 以降のデフォルト設定は 127.0.0.1 となっています。この設定は、コンポーネントゲートウェイが有効となっている時に、localhost への接続を制限します。デフォルトの設定は、たとえばこのプロパティを 0.0.0.0 に設定してすべての接続を許可することで、オーバーライドできます。

1キーストア ファイル: キーストア ファイルには SSL 証明書が含まれています。ファイルの形式は Java KeyStore(JKS)です。VM にコピーされるときに、このファイルの名前は keystore.jks に変更されます。SSL 証明書は、クラスタ内の各ノードに適用されるワイルドカード証明書です。

2トラストストア ファイル: トラストストア ファイルの形式は Java KeyStore(JKS)です。VM にコピーされるときに、このファイルの名前は truststore.jks に変更されます。