Enviar una tarea de Spark mediante una plantilla

En esta página se muestra cómo usar una plantilla de Explorador de APIs de Google para ejecutar una tarea sencilla de Spark en un clúster de Dataproc.

Para ver otras formas de enviar una tarea a un clúster de Dataproc, consulta los siguientes artículos:

Antes de empezar

Para poder ejecutar un trabajo de Dataproc, debes crear un clúster de una o varias máquinas virtuales (VMs) en las que se ejecute. Puedes usar el Explorador de APIs, la consolaGoogle Cloud , la CLI de gcloud, la herramienta de línea de comandos gcloud o las guías de inicio rápido con bibliotecas de cliente de Cloud para crear un clúster.

Enviar una tarea

Para enviar un trabajo de Apache Spark de ejemplo que calcule un valor aproximado de pi, rellena y ejecuta la plantilla Probar esta API de Explorador de APIs de Google.

  1. Parámetros de la solicitud:

    1. Inserta tu projectId.
    2. Especifica la región en la que se encuentra tu clúster (confirma o sustituye "us-central1"). La región de tu clúster se indica en la página Clústeres de Dataproc en laGoogle Cloud consola.
  2. Cuerpo de la solicitud:

    1. job.placement.clusterName: Nombre del clúster en el que se ejecutará el trabajo (confirma o sustituye "example-cluster").
    2. job.sparkJob.args: "1000", el número de tareas del trabajo.
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esta es la ruta del archivo local en el nodo maestro del clúster de Dataproc donde se instala el archivo JAR que contiene el código del trabajo de Spark Scala.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Es el método principal de la aplicación Scala de cálculo de pi del trabajo.
  3. Haz clic en EXECUTE. La primera vez que ejecutes la plantilla de la API, es posible que se te pida que elijas una cuenta de Google e inicies sesión en ella. Después, autoriza a Explorador de APIs de Google para que acceda a tu cuenta. Si la solicitud se realiza correctamente, la respuesta JSON muestra que la solicitud de envío del trabajo está pendiente.

  4. Para ver la salida de un trabajo, abre la página Trabajos de Dataproc de la consola Google Cloud y, a continuación, haz clic en el ID del trabajo de la parte superior (el más reciente). Activa "AJUSTE DE LÍNEA" para que se muestren las líneas que superen el margen derecho.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpieza

Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

  1. Si no necesitas el clúster para consultar las otras guías de inicio rápido o ejecutar otras tareas, usa el Explorador de APIs, la Google Cloud consola, la herramienta de línea de comandos gcloud gcloud o las bibliotecas de cliente de Cloud para eliminar el clúster.

Siguientes pasos