Dataproc の割り当て

このページでは、プロジェクトとリージョンのレベルで適用される Dataproc API 割り当ての上限を示します。割り当ては 60 秒(1 分)ごとにリセットされます。

割り当てとリソースの可用性の問題を回避するためのクラスタ最適化戦略については、リソースの可用性とゾーン戦略をご覧ください。

次の表に、プロジェクトあたりの固有およびデフォルトの Dataproc API 割り当てタイプ、割り当て上限、適用先のメソッドを示します。

割り当てのタイプ 上限 該当する API メソッド
AutoscalingOperationRequestsPerMinutePerProjectPerRegion 400 CreateAutoscalingPolicy、GetAutoscalingPolicy、ListAutoscalingPolicies、UpdateAutoscalingPolicy、DeleteAutoscalingPolicy
ClusterOperationRequestsPerMinutePerProjectPerRegion 200 CreateCluster、DeleteCluster、UpdateCluster、StopCluster、StartCluster、DiagnoseCluster、RepairCluster
NodeGroupOperationRequestsPerMinutePerProjectPerRegion 600 CreateNodeGroup、DeleteNodeGroup、ResizeNodeGroup、RepairNodeGroup、UpdateLabelsNodeGroup、StartNodeGroup、StopNodeGroup
GetJobRequestsPerMinutePerProjectPerRegion 7500 GetJob
JobOperationRequestsPerMinutePerProjectPerRegion 400 SubmitJob、UpdateJob、CancelJob、DeleteJob
WorkflowOperationRequestsPerMinutePerProjectPerRegion 400 CreateWorkflowTemplate、InstantiateWorkflowTemplate、InstantiateInlineWorkflowTemplate、UpdateWorkflowTemplate、DeleteWorkflowTemplate
DefaultRequestsPerMinutePerProjectPerRegion 7500 他のすべてのオペレーション(主に Get オペレーション)

次の表に、プロジェクト レベルとリージョン レベルでのアクティブなオペレーションとジョブの合計数に関する追加の上限を示します。

割り当てのタイプ 上限 説明
ActiveOperationsPerProjectPerRegion 5000 単一のリージョン データベース内の単一プロジェクトにあるすべてのタイプの同時アクティブ オペレーションの合計数の上限
ActiveJobsPerProjectPerRegion 5000 単一のリージョン データベース内の単一プロジェクトにある NON_TERMINAL 状態のアクティブなジョブの合計数の上限

その他の Google Cloud の割り当て

Dataproc クラスタは他の Google Cloud プロダクトを使用します。これらのプロダクトにはプロジェクト レベルの割り当てがあり、これには Dataproc の使用に適用される割り当てが含まれます。Dataproc を使用するには、Compute EngineCloud Storage などの一部のサービスが必須です。他のサービス(BigQueryBigtable など)は、必要に応じて Dataproc を使用できます。

必要なクラスタ サービス

割り当て上限が適用される次のサービスは、Dataproc クラスタの作成に必要です。

Compute Engine

Dataproc クラスタは Compute Engine 仮想マシンを使用します。Compute Engine の割り当ては、リージョン上限とグローバル上限に分けられます。これらの上限は、作成したクラスタに適用されます。たとえば、1 つの n1-standard-4 -m ノードと 2 つの n1-standard-4 -w ノードを含むクラスタの作成では、12 個の仮想 CPU(4 * 3)が使用されます。このクラスタの使用量は、リージョン割り当て上限である 24 個の仮想 CPU に対してカウントされます。

デフォルト クラスタのリソース

デフォルト設定で Dataproc クラスタを作成する場合、次の Compute Engine リソースが使用されます。

リソース 使用方法
仮想 CPU 12
仮想マシン(VM)インスタンス 3
永続ディスク 1,500 GB

Cloud Logging

Dataproc では、ドライバ出力とクラスタログが Cloud Logging に保存されます。Logging の割り当てが、Dataproc クラスタに適用されます。

オプションのクラスタ サービス

Dataproc クラスタでは、割り当て上限がある次のサービスをオプションで使用できます。

BigQuery

BigQuery に対してデータを読み書きする場合、BigQuery の割り当てが適用されます。

Bigtable

Bigtable に対してデータを読み書きする場合、Bigtable の割り当てが適用されます。

リソースの可用性とゾーン戦略

リソースの可用性を高め、リソース不足を軽減するために、次の戦略を検討してください。

  • 自動ゾーン プレースメント: クラスタを作成するときに、自動ゾーン プレースメントを使用します。これにより、Dataproc は指定したリージョン内で最適なゾーンを選択できるため、クラスタの作成が成功する可能性が高まります。

  • リージョン割り当て: リージョン全体の容量がリクエストに対して十分でない場合、自動ゾーン プレースメントでも割り当てが不足する可能性があるため、リージョン Compute Engine 割り当てが十分であることを確認します。

  • マシンタイプの柔軟性: 特定のマシンタイプでリソース不足が続く場合は、クラスタに別のマシンタイプを使用します。