Dataproc の割り当て

このページでは、プロジェクトとリージョンのレベルで適用される Dataproc API 割り当ての上限を示します。割り当ては 60 秒（1 分）ごとにリセットされます。

割り当てとリソースの可用性の問題を回避するためのクラスタ最適化戦略については、リソースの可用性とゾーン戦略をご覧ください。

次の表に、プロジェクトあたりの固有およびデフォルトの Dataproc API 割り当てタイプ、割り当て上限、適用先のメソッドを示します。

割り当てのタイプ	上限	該当する API メソッド
AutoscalingOperationRequestsPerMinutePerProjectPerRegion	400	CreateAutoscalingPolicy、GetAutoscalingPolicy、ListAutoscalingPolicies、UpdateAutoscalingPolicy、DeleteAutoscalingPolicy
ClusterOperationRequestsPerMinutePerProjectPerRegion	200	CreateCluster、DeleteCluster、UpdateCluster、StopCluster、StartCluster、DiagnoseCluster、RepairCluster
NodeGroupOperationRequestsPerMinutePerProjectPerRegion	600	CreateNodeGroup、DeleteNodeGroup、ResizeNodeGroup、RepairNodeGroup、UpdateLabelsNodeGroup、StartNodeGroup、StopNodeGroup
GetJobRequestsPerMinutePerProjectPerRegion	7500	GetJob
JobOperationRequestsPerMinutePerProjectPerRegion	400	SubmitJob、UpdateJob、CancelJob、DeleteJob
WorkflowOperationRequestsPerMinutePerProjectPerRegion	400	CreateWorkflowTemplate、InstantiateWorkflowTemplate、InstantiateInlineWorkflowTemplate、UpdateWorkflowTemplate、DeleteWorkflowTemplate
DefaultRequestsPerMinutePerProjectPerRegion	7500	他のすべてのオペレーション（主に Get オペレーション）

次の表に、プロジェクトレベルとリージョンレベルでのアクティブなオペレーションとジョブの合計数に関する追加の上限を示します。

割り当てのタイプ	上限	説明
ActiveOperationsPerProjectPerRegion	5000	単一のリージョンデータベース内の単一プロジェクトにあるすべてのタイプの同時アクティブオペレーションの合計数の上限
ActiveJobsPerProjectPerRegion	5000	単一のリージョンデータベース内の単一プロジェクトにある `NON_TERMINAL` 状態のアクティブなジョブの合計数の上限

その他の Google Cloud の割り当て

Dataproc クラスタは他の Google Cloud プロダクトを使用します。これらのプロダクトにはプロジェクトレベルの割り当てがあり、これには Dataproc の使用に適用される割り当てが含まれます。Dataproc を使用するには、Compute Engine や Cloud Storage などの一部のサービスが必須です。他のサービス（BigQuery や Bigtable など）は、必要に応じて Dataproc を使用できます。

必要なクラスタサービス

割り当て上限が適用される次のサービスは、Dataproc クラスタの作成に必要です。

Compute Engine

Dataproc クラスタは Compute Engine 仮想マシンを使用します。Compute Engine の割り当ては、リージョン上限とグローバル上限に分けられます。これらの上限は、作成したクラスタに適用されます。たとえば、1 つの n1-standard-4 -m ノードと 2 つの n1-standard-4 -w ノードを含むクラスタの作成では、12 個の仮想 CPU（4 * 3）が使用されます。このクラスタの使用量は、リージョン割り当て上限である 24 個の仮想 CPU に対してカウントされます。

デフォルトクラスタのリソース

デフォルト設定で Dataproc クラスタを作成する場合、次の Compute Engine リソースが使用されます。

リソース	使用方法
仮想 CPU	12
仮想マシン（VM）インスタンス	3
永続ディスク	1,500 GB

Cloud Logging

Dataproc では、ドライバ出力とクラスタログが Cloud Logging に保存されます。Logging の割り当てが、Dataproc クラスタに適用されます。

オプションのクラスタサービス

Dataproc クラスタでは、割り当て上限がある次のサービスをオプションで使用できます。

BigQuery

BigQuery に対してデータを読み書きする場合、BigQuery の割り当てが適用されます。

Bigtable

Bigtable に対してデータを読み書きする場合、Bigtable の割り当てが適用されます。

リソースの可用性とゾーン戦略

リソースの可用性を高め、リソース不足を軽減するために、次の戦略を検討してください。

自動ゾーンプレースメント: クラスタを作成するときに、自動ゾーンプレースメントを使用します。これにより、Dataproc は指定したリージョン内で最適なゾーンを選択できるため、クラスタの作成が成功する可能性が高まります。
リージョン割り当て: リージョン全体の容量がリクエストに対して十分でない場合、自動ゾーンプレースメントでも割り当てが不足する可能性があるため、リージョン Compute Engine 割り当てが十分であることを確認します。
マシンタイプの柔軟性: 特定のマシンタイプでリソース不足が続く場合は、クラスタに別のマシンタイプを使用します。