Envoyer une tâche Spark à l'aide d'un modèle

Cette page vous explique comment utiliser un modèle Google APIs Explorer pour exécuter une tâche Spark simple sur un cluster Dataproc existant.

Pour découvrir d'autres façons d'envoyer une tâche à un cluster Dataproc, consultez les pages suivantes :

Avant de commencer

Avant de pouvoir exécuter une tâche Dataproc, vous devez créer le cluster d'une ou de plusieurs machines virtuelles (VM) pour l'exécuter. Vous pouvez utiliser APIs Explorer, Google Cloud Console, l'outil de ligne de commande gcloud de gcloud CLI ou les guides de démarrage rapide avec les bibliothèques clientes Cloud pour créer un cluster.

Envoyer une tâche

Pour envoyer un exemple de tâche Apache Spark qui calcule une valeur approximative de pi, remplissez et exécutez le modèle Try this API (Essayer cette API) de Google APIs Explorer.

  1. Paramètres de requête :

    1. Insérez votre projectId.
    2. Spécifiez la région où se trouve votre cluster (confirmez ou remplacez "us-central1"). La région de votre cluster est répertoriée sur la page Clusters de Dataproc dans la console Google Cloud.
  2. Corps de la requête :

    1. job.placement.clusterName : nom du cluster dans lequel la tâche sera exécutée (confirmez ou remplacez "example-cluster").
    2. job.sparkJob.args : "1000", le nombre de tâches.
    3. job.sparkJob.jarFileUris : "file:///usr/lib/spark/examples/jars/spark-examples.jar". Il s'agit du chemin d'accès au fichier local sur le nœud maître du cluster Dataproc, où le fichier JAR contenant le code de la tâche Spark Scala est installé.
    4. job.sparkJob.mainClass : "org.apache.spark.examples.SparkPi". Il s'agit de la méthode principale de calcul d'une valeur approximative de pi de l'application Scala.
  3. Cliquez sur EXÉCUTER. La première fois que vous exécutez le modèle d'API, vous pouvez être invité à choisir votre compte Google et à vous y connecter, puis à autoriser Google APIs Explorer à accéder à votre compte. Si la requête aboutit, la réponse JSON indique que la requête d'envoi de tâche est en attente.

  4. Pour afficher le résultat de la tâche, ouvrez la page Tâches Dataproc dans la console Google Cloud, puis cliquez sur l'ID de tâche le plus récent. Activez l'option RENVOI À LA LIGNE AUTOMATIQUE pour afficher les lignes qui dépassent de la marge de droite.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Si vous n'avez pas besoin du cluster pour explorer les autres guides de démarrage rapide ou pour exécuter d'autres jobs, utilisez APIs Explorer, Google Cloud Console, l'outil de ligne de commande gcloud de la gcloud CLI ou les bibliothèques clientes Cloud pour supprimer le cluster.

Étape suivante