Google Cloud Precios de Serverless para Apache Spark

Los precios de Serverless para Apache Spark se basan en el número de unidades de computación de datos (DCUs), el número de aceleradores utilizados y la cantidad de almacenamiento de Shuffle utilizado. Las DCUs, los aceleradores y el almacenamiento de mezcla se facturan por segundo, con un cargo mínimo de 1 minuto para las DCUs y el almacenamiento de mezcla, y un cargo mínimo de 5 minutos para los aceleradores.

Cada vCPU de Dataproc cuenta como 0,6 DCUs. La RAM se cobra de forma diferente si es inferior o superior a 8 GB. Cada gigabyte de RAM por debajo de 8 GB por vCPU cuenta como 0,1 DCU, y cada gigabyte de RAM por encima de 8 GB por vCPU cuenta como 0,2 DCU. La memoria que usan los controladores y ejecutores de Spark, así como el uso de memoria del sistema, se contabilizan en el uso de DCUs.

De forma predeterminada, cada carga de trabajo interactiva y por lotes de Serverless para Apache Spark consume un mínimo de 12 DCUs durante toda su duración: el controlador usa 4 vCPUs y 16 GB de RAM, y consume 4 DCUs, y cada uno de los 2 ejecutores usa 4 vCPUs y 16 GB de RAM, y consume 4 DCUs. Puedes personalizar el número de vCPUs y la cantidad de memoria por vCPU configurando propiedades de Spark. No se aplican cargos adicionales por las VMs de Compute Engine ni por los discos persistentes.

Precios de las unidades de computación de datos (DCUs)

La tarifa de DCU que se muestra a continuación es una tarifa por horas. Se prorratea y factura según segundo, con una carga mínima de un minuto. Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

La carga de trabajo interactiva de Serverless para Apache Spark se cobra a precio de Premium.

Precios de almacenamiento Shuffle

La tarifa de almacenamiento de shuffle que se muestra a continuación es una tarifa mensual. Se prorratea y factura según segundo, con una carga mínima de 1 minuto para el almacenamiento de ordenación estándar y una carga mínima de 5 minutos para el almacenamiento de ordenación Premium. El almacenamiento de ordenación premium solo se puede usar con la unidad de computación premium.

Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Precios de Accelerator

La frecuencia del acelerador que se muestra a continuación es una tarifa por horas. Se prorratea y factura según con una carga mínima de 5 minutos. Si pagas en una moneda que no sea el dólar estadounidense, los precios que figuran para tu divisa en SKUs de Cloud Platform .

Ejemplo de precios

Si la carga de trabajo por lotes de Serverless para Apache Spark se ejecuta con 12 DCUs (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de Shuffle, el cálculo del precio es el siguiente:

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/30) = $0.033
------------------------------------------------
Total cost = $17.28 + $0.033 = $17.313

Notas:

  1. En este ejemplo, se presupone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa mensual de almacenamiento de shuffle se divide entre 30.

Si la carga de trabajo por lotes de Serverless para Apache Spark se ejecuta con 12 DCUs y 2 GPUs L4 (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium,spark.dataproc.executor.compute.tier=premium,spark.dataproc.executor.disk.tier=premium,spark.dataproc.executor.resource.accelerator.type=l4) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de Shuffle, el cálculo del precio es el siguiente:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/30) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Notas:

  1. En este ejemplo, se presupone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa mensual de almacenamiento de mezcla se divide entre 30.

Si la carga de trabajo interactiva de Serverless para Apache Spark se ejecuta con 12 DCUs (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) durante 24 horas en la región us-central1 y consume 25 GB de almacenamiento de Shuffle, el cálculo del precio es el siguiente:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/30) = $0.033
------------------------------------------------
Total cost = $25.632 + $0.033 = $25.665

Notas:

  1. En este ejemplo, se presupone que el mes tiene 30 días. Como la duración de la carga de trabajo por lotes es de un día, la tarifa mensual de almacenamiento de mezcla se divide entre 30.

Ejemplo de estimación de precios

Cuando una carga de trabajo por lotes finaliza, Serverless para Apache Spark calcula las UsageMetrics, que contienen una aproximación de los recursos totales de DCU, acelerador y almacenamiento de Shuffle que ha consumido la carga de trabajo finalizada. Después de ejecutar una carga de trabajo, puedes ejecutar el comando gcloud dataproc batches describe BATCH_ID para ver las métricas de uso de la carga de trabajo y así estimar el coste de ejecutarla.

Ejemplo:

Serverless para Apache Spark ejecuta una carga de trabajo en un clúster efímero con un nodo maestro y dos nodos de trabajador. Cada nodo consume 4 DCUs (el valor predeterminado es 4 DCUs por núcleo; consulta spark.dataproc.driver.disk.size) y 400 GB de almacenamiento de ordenación aleatoria (el valor predeterminado es 100 GB por núcleo; consulta spark.driver.cores). El tiempo de ejecución de la carga de trabajo es de 60 segundos. Además, cada trabajador tiene 1 GPU, lo que hace un total de 2 en el clúster.

El usuario ejecuta gcloud dataproc batches describe BATCH_ID --region REGION para obtener métricas de uso. La salida del comando incluye el siguiente fragmento de código (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 y shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Uso de otros recursos de Google Cloud

Tu carga de trabajo de Serverless para Apache Spark puede utilizar, entre otros, los siguientes recursos (cada uno de los cuales cuenta con sus propios precios):

Siguientes pasos

Solicitar un presupuesto personalizado

Gracias al modelo de pago por uso de Google Cloud, solo pagas por los servicios que usas. Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu empresa.
Contactar con Ventas