Dataproc 할당량

이 페이지에서는 프로젝트 및 리전 수준에 적용되는 Dataproc API 할당량 한도를 보여줍니다. 할당량은 60초(1분)마다 재설정됩니다.

할당량 및 리소스 가용성 문제를 방지하는 데 도움이 되는 클러스터 최적화 전략은 리소스 가용성 및 영역 전략을 참고하세요.

다음 표는 프로젝트별 기본 Dataproc API 할당량 유형, 할당량 한도, 적용되는 메서드를 구체적으로 나열한 것입니다.

할당량 유형 한도 해당 API 메서드
AutoscalingOperationRequestsPerMinutePerProjectPerRegion 400 CreateAutoscalingPolicy, GetAutoscalingPolicy, ListAutoscalingPolicies, UpdateAutoscalingPolicy, DeleteAutoscalingPolicy
ClusterOperationRequestsPerMinutePerProjectPerRegion 200 CreateCluster, DeleteCluster, UpdateCluster, StopCluster, StartCluster, DiagnoseCluster, RepairCluster
NodeGroupOperationRequestsPerMinutePerProjectPerRegion 600 CreateNodeGroup, DeleteNodeGroup, ResizeNodeGroup, RepairNodeGroup, UpdateLabelsNodeGroup, StartNodeGroup, StopNodeGroup
GetJobRequestsPerMinutePerProjectPerRegion 7500 GetJob
JobOperationRequestsPerMinutePerProjectPerRegion 400 SubmitJob, UpdateJob, CancelJob, DeleteJob
WorkflowOperationRequestsPerMinutePerProjectPerRegion 400 CreateWorkflowTemplate, InstantiateWorkflowTemplate, InstantiateInlineWorkflowTemplate, UpdateWorkflowTemplate, DeleteWorkflowTemplate
DefaultRequestsPerMinutePerProjectPerRegion 7500 기타 모든 작업(주로 Get 작업)

다음 표에는 프로젝트 및 리전 수준의 총 활성 작업 및 작업에 대한 추가 한도가 나와 있습니다.

할당량 유형 한도 설명
ActiveOperationsPerProjectPerRegion 5000 단일 리전 데이터베이스의 단일 프로젝트에 있는 모든 유형의 동시 활성 작업 총개수에 대한 한도
ActiveJobsPerProjectPerRegion 5000 단일 리전 데이터베이스의 단일 프로젝트에서 NON_TERMINAL 상태의 활성 작업 총개수에 대한 한도

기타 Google Cloud 할당량

Dataproc 클러스터는 다른 Google Cloud 제품을 사용합니다. 이러한 제품에는 Dataproc 사용에 적용되는 프로젝트 수준 할당량이 있습니다. Compute Engine, Cloud Storage와 같은 일부 서비스는 Dataproc 사용이 필수입니다. BigQueryBigtable과 같은 다른 서비스는 원하는 경우 Dataproc을 사용할 수 있습니다.

필수 클러스터 서비스

Dataproc 클러스터를 만들려면 할당량 제한을 적용하는 다음 서비스가 필요합니다.

Compute Engine

Dataproc 클러스터는 Compute Engine 가상 머신을 사용합니다. Compute Engine 할당량은 리전 및 전역 한도로 나뉩니다. 이러한 한도는 생성한 클러스터에 적용됩니다. 예를 들어 n1-standard-4 -m 노드 1개와 n1-standard-4 -w 노드 2개가 있는 클러스터를 만들면 12개의 가상 CPU(4 * 3)가 사용됩니다. 이 클러스터 사용량은 리전 할당량 한도인 24개의 가상 CPU에 반영됩니다.

기본 클러스터 리소스

기본 설정으로 Dataproc 클러스터를 생성하면 다음과 같은 Compute Engine 리소스가 사용됩니다.

리소스 용도
가상 CPU 12
가상 머신(VM) 인스턴스 3
영구 디스크 1,500GB

Cloud Logging

Dataproc은 드라이버 출력 및 클러스터 로그를 Cloud Logging에 저장합니다. 따라서 Logging 할당량이 Dataproc 클러스터에 적용됩니다.

선택적 클러스터 서비스

할당량 한도가 있는 다음 서비스를 Dataproc 클러스터와 함께 선택적으로 사용할 수 있습니다.

BigQuery

BigQuery로 데이터를 읽거나 쓰면 BigQuery 할당량이 적용됩니다.

Bigtable

Bigtable로 데이터를 읽거나 쓰면 Bigtable 할당량이 적용됩니다.

리소스 가용성 및 영역 전략

리소스 가용성을 위해 클러스터를 최적화하고 잠재적인 품절 오류를 완화하려면 다음 전략을 고려하세요.

  • 자동 영역 배치: 클러스터를 만들 때 자동 영역 배치를 사용합니다. 이를 통해 Dataproc은 지정된 리전 내에서 최적의 영역을 선택하여 클러스터 생성 성공 가능성을 높일 수 있습니다.

  • 리전별 할당량: 총 리전 용량이 요청에 충분하지 않으면 자동 영역 배치로도 할당량이 소진될 수 있으므로 리전별 Compute Engine 할당량이 충분한지 확인합니다.

  • 머신 유형 유연성: 특정 머신 유형의 재고가 계속 부족한 경우 클러스터에 다른 머신 유형을 사용하세요.