Cuotas de Dataproc

En esta página se describen los límites de las cuotas de la API de Dataproc, que se aplican a nivel de proyecto y región. Estas cuotas se renuevan cada 60 segundos (es decir, cada minuto).

Para consultar estrategias de optimización de clústeres que te ayuden a evitar problemas de cuota y disponibilidad de recursos, consulta Disponibilidad de recursos y estrategias de zonas.

En la siguiente tabla se describen los tipos predeterminados de cuota de API de Dataproc por proyecto, los límites que existen en cada caso y los métodos a los que se aplican.

Tipo de cuota Límite Métodos de API a los que se aplica
AutoscalingOperationRequestsPerMinutePerProjectPerRegion 400 CreateAutoscalingPolicy, GetAutoscalingPolicy, ListAutoscalingPolicies, UpdateAutoscalingPolicy, DeleteAutoscalingPolicy
ClusterOperationRequestsPerMinutePerProjectPerRegion 200 CreateCluster, DeleteCluster, UpdateCluster, StopCluster, StartCluster, DiagnoseCluster, RepairCluster
NodeGroupOperationRequestsPerMinutePerProjectPerRegion 600 CreateNodeGroup, DeleteNodeGroup, ResizeNodeGroup, RepairNodeGroup, UpdateLabelsNodeGroup, StartNodeGroup, StopNodeGroup
GetJobRequestsPerMinutePerProjectPerRegion 7500 GetJob
JobOperationRequestsPerMinutePerProjectPerRegion 400 SubmitJob, UpdateJob, CancelJob, DeleteJob
WorkflowOperationRequestsPerMinutePerProjectPerRegion 400 CreateWorkflowTemplate, InstantiateWorkflowTemplate, InstantiateInlineWorkflowTemplate, UpdateWorkflowTemplate, DeleteWorkflowTemplate
DefaultRequestsPerMinutePerProjectPerRegion 7500 Todas las demás operaciones (principalmente las operaciones Get)

En la siguiente tabla se indican los límites adicionales del total de operaciones y trabajos activos a nivel de proyecto y de región.

Tipo de cuota Límite Descripción
ActiveOperationsPerProjectPerRegion 5000 Límite del número total de operaciones activas simultáneas de todos los tipos en un solo proyecto en una sola base de datos regional
ActiveJobsPerProjectPerRegion 5000 Límite del número total de trabajos activos en estado NON_TERMINAL en un solo proyecto de una sola base de datos regional

Otras cuotas Google Cloud

Los clústeres de Dataproc utilizan otros Google Cloud productos. que tienen cuotas a nivel de proyecto en las que se incluyen algunas aplicables al uso de Dataproc. Algunos servicios se deben usar obligatoriamente para poder utilizar Dataproc, como Compute Engine y Cloud Storage, mientras que otros servicios como BigQuery y Bigtable pueden usar Dataproc de manera opcional.

Servicios de clúster obligatorios

Los siguientes servicios tienen unos límites de cuota concretos y se utilizan de forma obligatoria para crear clústeres de Dataproc.

Compute Engine

Los clústeres de Dataproc utilizan máquinas virtuales de Compute Engine. Las cuotas de Compute Engine se dividen entre límites globales y regionales. Estos límites se aplican a los clústeres que crees. Por ejemplo, la creación de un clúster con un nodo n1-standard-4 -m y dos nodos n1-standard-4 -w utiliza 12 CPU virtuales (4 * 3). El uso que se haga del clúster se contabilizará a efectos del límite de cuota regional de 24 CPU virtuales.

Recursos de clústeres predeterminados

Al crear un clúster de Dataproc con la configuración predeterminada, se utilizan los recursos de Compute Engine que aparecen a continuación.

Recurso Uso
CPU virtuales 12
Instancias de máquina virtual (VM) 3
Disco persistente 1500 GB

Cloud Logging

Dataproc guarda en Cloud Logging los registros de clúster y de salida de los controladores. La cuota de Logging se aplica a los clústeres de Dataproc.

Servicios de clústeres opcionales

Puedes usar los siguientes servicios, que tienen límites de cuota, con clústeres de Dataproc de forma opcional.

BigQuery

Al leer o escribir datos en BigQuery, se aplican las cuotas de dicho servicio.

Bigtable

Al leer o escribir datos en Bigtable, se aplican las cuotas de dicho servicio.

Disponibilidad de recursos y estrategias de zonas

Para optimizar los clústeres de forma que los recursos estén disponibles y se reduzcan los posibles errores de falta de stock, puedes usar las siguientes estrategias:

  • Emplazamiento de asignación automática de zonas: al crear clústeres, usa la opción Emplazamiento de asignación automática de zonas. De esta forma, Dataproc puede seleccionar una zona óptima dentro de la región especificada, lo que aumenta las probabilidades de que se cree el clúster correctamente.

  • Cuotas regionales: comprueba que tus cuotas regionales de Compute Engine sean suficientes, ya que pueden agotarse incluso con la colocación automática de zonas si la capacidad regional total no es suficiente para tus solicitudes.

  • Flexibilidad del tipo de máquina: si te quedas sin stock de un tipo de máquina específico, usa otro tipo de máquina que esté más disponible para tu clúster.