En este documento se indican las cuotas y los límites del sistema que se aplican a Dataflow.
- Las cuotas especifican la cantidad de un recurso compartido y contable que puedes usar. Las cuotas se definen por Google Cloud servicios como Dataflow.
- Los límites del sistema son valores fijos que no se pueden cambiar.
Google Cloud Platform usa cuotas para garantizar la equidad y reducir los picos en el uso y la disponibilidad de los recursos. Una cuota restringe la cantidad de unGoogle Cloud recurso que puede usar tu Google Cloud proyecto. Las cuotas se aplican a una serie de tipos de recursos, incluidos los componentes de hardware, software y red. Por ejemplo, las cuotas pueden restringir el número de llamadas a una API enviadas a un servicio, el número de balanceadores de carga que usa tu proyecto de forma simultánea o el número de proyectos que puedes crear. Las cuotas protegen a la comunidad de usuarios deGoogle Cloud al evitar que se sobrecarguen los servicios. Las cuotas también te ayudan a gestionar tus propios Google Cloud recursos.
El sistema de cuotas de Cloud hace lo siguiente:
- Monitoriza tu consumo de Google Cloud productos y servicios
- Restringe el consumo de esos recursos
- Proporciona una forma de solicitar cambios en el valor de la cuota y automatizar los ajustes de la cuota.
En la mayoría de los casos, cuando intentas consumir más recursos de los que permite la cuota, el sistema bloquea el acceso al recurso y la tarea que intentas realizar falla.
Las cuotas se aplican generalmente a nivel de Google Cloud proyecto. El uso que hagas de un recurso en un proyecto no afectará a la cuota disponible en otro proyecto. En un Google Cloud proyecto, las cuotas se comparten entre todas las aplicaciones y direcciones IP.
Para obtener más información, consulta la descripción general de las cuotas de Cloud.Para ajustar la mayoría de las cuotas, usa la Google Cloud consola. Para obtener más información, consulta Solicitar un ajuste de cuota.
También hay límites del sistema en los recursos de Dataflow. Los límites del sistema no se pueden cambiar.
El servicio gestionado Dataflow tiene las siguientes cuotas y límites:
- Cada proyecto de Google Cloud Platform puede realizar hasta 3.000.000 de solicitudes por minuto.
- Cada tarea de Dataflow puede usar un máximo de 2000 instancias de Compute Engine. Si no especificas una zona de trabajador, cada tarea de streaming que use Streaming Engine o cada tarea por lotes que use Dataflow Shuffle basado en servicios puede usar un máximo de 4000 instancias de Compute Engine.
- De forma predeterminada, cada proyecto de Google Cloud Platform puede ejecutar un máximo de 25 tareas de Dataflow de manera simultánea.
- Cada trabajador de Dataflow tiene un límite máximo de registros que puede generar en un intervalo de tiempo. Consulta la documentación de registro para ver el límite exacto.
- Si habilitas las cuotas a nivel de organización, cada organización podrá ejecutar un máximo de 125 tareas de Dataflow simultáneas de forma predeterminada.
- Cada usuario puede realizar hasta 15.000 solicitudes de monitorización por minuto.
- Cada usuario puede realizar hasta 60 solicitudes de creación de trabajos por minuto.
- Cada usuario puede hacer hasta 60 solicitudes de plantilla de trabajo por minuto.
- Cada usuario puede realizar hasta 60 solicitudes de actualización de trabajos por minuto.
- Cada proyecto de Google Cloud Platform recibe las siguientes ranuras de Shuffle en cada región:
- asia-east1: 48 ranuras
- asia-northeast1: 24 ranuras
- asia-northeast3: 32 ranuras
- asia-south1: 64 ranuras
- asia-southeast1: 64 ranuras
- australia-southeast1: 24 ranuras
- europe-west1: 640 ranuras
- europe-west2: 32 ranuras
- europe-west3: 40 ranuras
- europe-west4: 640 ranuras
- northamerica-northeast1: 512 ranuras
- us-central1: 640 ranuras
- us-east1: 640 ranuras
- us-east4: 64 ranuras
- us-west1: 384 ranuras
- us-west2: 24 ranuras
- us-west3: 24 ranuras
- otras: 16 ranuras
- Las tareas por lotes de Dataflow se cancelarán al cabo de 10 días.
Cuotas de Compute Engine
Cuando ejecutas tu flujo de procesamiento en el servicio Dataflow, este crea instancias de Compute Engine para ejecutar el código de ese flujo.
Las cuotas de Compute Engine se especifican según la región. Comprueba la cuota de Compute Engine que se aplica a tu proyecto y solicita los ajustes pertinentes (si procede):
- CPUs: en las siguientes regiones, los tipos de máquinas predeterminados de Dataflow son
n1-standard-1
para los lotes,n1-standard-2
para las tareas que usan Streaming Engine,n1-standard-4
para las tareas de streaming que no lo usan yn1-standard-2
para las tareas que usan la programación flexible de recursos (FlexRS). FlexRS usa un 90% de máquinas virtuales interrumpibles y un 10% de máquinas virtuales convencionales.asia-east1
asia-east2
asia-northeast1
asia-northeast2
asia-northeast3
asia-south1
asia-south2
asia-southeast1
asia-southeast2
australia-southeast1
australia-southeast2
europe-central2
europe-north1
europe-west1
europe-west2
europe-west3
europe-west4
europe-west5
europe-west6
northamerica-northeast1
northamerica-northeast2
southamerica-east1
us-central1
us-central2
us-east1
us-east4
us-west1
us-west2
us-west3
us-west4
En otras regiones, los tipos de máquinas predeterminados son
e2-standard-2
para los lotes,e2-standard-2
para las tareas que usan Streaming Engine,e2-standard-4
para las tareas de streaming que no usan Streaming Engine ye2-standard-2
para las tareas que usan FlexRS.Para calcular el número de CPUs, Compute Engine suma el recuento total de CPUs de cada instancia. Por ejemplo, si se ejecutan 10 instancias de
n1-standard-4
, se contabilizarán 40 CPUs. Para ver una asignación de tipos de máquinas a recuento de CPU, consulta los tipos de máquinas de Compute Engine. - Direcciones IP en uso: en tu proyecto, debes tener un número de direcciones IP en uso suficiente como para acomodar el número de instancias que quieras utilizar. Por ejemplo, si quieres usar 10 instancias de Compute Engine, tendrás que contar con 10 direcciones IP de dicho tipo.
- Persistent Disk: Dataflow vincula discos persistentes con cada instancia.
- El tamaño de disco predeterminado es de 250 GB para los flujos de procesamiento por lotes y de 400 GB para los de streaming. Por tanto, si quieres utilizar 10 instancias, necesitarás 2500 GB de Persistent Disk de forma predeterminada para realizar una tarea por lotes.
- El tamaño de disco predeterminado es de 25 GB para los flujos de procesamiento por lotes de Dataflow Shuffle.
- Por otra parte, el tamaño de disco predeterminado para los flujos de procesamiento en streaming de Streaming Engine es de 30 GB.
- Actualmente, el servicio Dataflow está limitado a 15 discos persistentes por instancia de trabajador cuando se ejecuta una tarea de streaming. Cada disco persistente es local de una máquina virtual de Compute Engine. La asignación mínima de recursos es una proporción de 1:1 entre trabajadores y discos.
- El uso de Compute Engine se basa en el número medio de trabajadores, mientras que el uso de Persistent Disk se basa en el valor exacto de
--maxNumWorkers
. Los discos persistentes se redistribuyen de forma que cada trabajador tenga el mismo número de discos conectados.
- Grupos de instancias gestionados regionales: Dataflow despliega tus instancias de Compute Engine como grupo de instancias gestionado regional. Para ello, debes tener disponible la siguiente cuota relacionada:
- Un grupo de instancias por cada tarea de Dataflow
- Una plantilla de instancia por cada tarea de Dataflow
- Un grupo de instancias gestionado regional por cada tarea de Dataflow
- Si falta Managed Instance Groups en un trabajo de streaming durante más de 7 días, se cancelará.
- Si falta Managed Instance Groups en un trabajo por lotes durante más de una hora, el trabajo se cancelará.
Otras cuotas
Según las fuentes y los sumideros que utilices, es posible que necesites más cuota.
- Pub/Sub: si utilizas este servicio, es posible que necesites más cuota. A la hora de planificarla, ten en cuenta que procesar un mensaje desde Pub/Sub implica tres operaciones. Si utilizas marcas de tiempo personalizadas, tendrás que duplicar el número esperado de operaciones, ya que Dataflow creará una suscripción independiente para hacer un seguimiento de esas marcas de tiempo.
- BigQuery: si utilizas la API de streaming de BigQuery, se aplicarán límites de cuota y otras restricciones.
Buscar y aumentar cuotas
Para comprobar tu uso de la cuota de Dataflow:
- En la Google Cloud consola, ve a APIs y servicios.
Ve a APIs y servicios. - Para comprobar tu uso actual de la cuota de ranuras de Shuffle, ve a la pestaña Cuotas, busca la línea Ranuras de Shuffle en la tabla y, en la columna Gráfico de uso, haz clic en Mostrar gráfico de uso.
Si quieres aumentar tu cuota de tareas, ponte en contacto con el equipo de Asistencia de Google Cloud Platform y aumentaremos el límite para que se ajuste mejor a tus necesidades. La cuota predeterminada es de 25 tareas de Dataflow simultáneas en un proyecto o de 125 tareas de Dataflow simultáneas en una organización.
Además, puedes incrementar tu cuota de ranuras de Shuffle para realizar tareas por lotes si envías una solicitud de asistencia en la que indiques el tamaño máximo esperado del conjunto de datos simultáneos de Shuffle de todas las tareas de tu proyecto. Antes de solicitar un aumento de la cuota de Shuffle, ejecuta tu flujo de procesamiento con Dataflow Shuffle y comprueba el uso real de la cuota.
En el caso de las tareas de streaming, puedes aumentar tu rendimiento de Streaming Engine si envías una solicitud al equipo de Asistencia de Google Cloud Platform. Indica la cantidad máxima de datos que quieres procesar con Shuffle entre trabajadores cada minuto y en cada región en la que se ejecute tu tarea.
El servicio Dataflow también utiliza varios componentes de Google Cloud, como BigQuery, Cloud Storage, Pub/Sub y Compute Engine. Tanto estos como otros servicios de Google Cloud disponen de cuotas para limitar el número máximo de recursos que puedes usar en un proyecto. Cuando uses Dataflow, puede que debas ajustar la configuración de cuotas según los requisitos de estos servicios.
Dataflow Prime
Las cuotas y los límites son los mismos para Dataflow y Dataflow Prime. Si tienes cuotas de Dataflow, no necesitas cuotas adicionales para ejecutar tus trabajos con Dataflow Prime.
Límites
En esta sección se detallan los límites prácticos de producción de Dataflow.
Límite | Cantidad |
---|---|
Número máximo de trabajadores por flujo de procesamiento | 2000 |
Tamaño máximo de las solicitudes de creación de tareas (este límite se puede alcanzar en las descripciones de los flujos de procesamiento que incluyan muchos pasos y nombres muy detallados) | 10 MB |
Tamaño máximo de una solicitud de lanzamiento de plantilla. | 1 MB |
Número máximo de fragmentos de entrada secundaria | 20.000 |
Tamaño máximo de un solo elemento (excepto en los casos en los que se apliquen condiciones más estrictas, como en Streaming Engine). | 2 GB |
Tamaño máximo de la clave en las canalizaciones por lotes. | 1,5 MB |
Número máximo de entradas de registro por trabajador durante un periodo determinado | 15.000 mensajes cada 30 segundos |
Número máximo de métricas personalizadas por proyecto. | 100 |
Tiempo durante el que se almacenarán las recomendaciones. | 30 días |
Límites de Streaming Engine | Importe |
---|---|
Número máximo de bytes de los mensajes de Pub/Sub. | 7 MB |
Tamaño máximo del valor de un único elemento. | 80 MB |
Tamaño máximo de una clave grande. Las claves de más de 64 KB reducen el rendimiento. | 2 MB |
Tamaño máximo de una entrada secundaria. | 80 MB |
Longitud máxima de las etiquetas de estado que usan TagValue y TagBag . |
64 KB |