Cette page inclut un tutoriel Cloud Shell qui se sert des bibliothèques clientes Google Cloud pour Python pour appeler les API gRPC Dataproc de manière automatisée, afin de créer un cluster et lui envoyer une tâche.
Les sections suivantes décrivent le fonctionnement du code du tutoriel contenu dans le dépôt GitHub GoogleCloudPlatform/python-dataproc.
Exécuter le tutoriel Cloud Shell
Cliquez sur Ouvrir dans Cloud Shell pour exécuter le tutoriel.
Comprendre le code
Identifiants par défaut de l'application
Dans le cas présent, le tutoriel Cloud Shell assure l'authentification à l'aide des identifiants de votre projet Google Cloud. Lorsque vous exécutez du code en local, il est recommandé de l'authentifier à l'aide des identifiants du compte de service.
Créer un cluster Dataproc
Les valeurs suivantes sont définies pour créer le cluster:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- Le nom du cluster
- La configuration du cluster, qui spécifie un nœud maître et deux nœuds de calcul principaux
Les paramètres de configuration par défaut sont utilisés pour les autres paramètres du cluster. Vous pouvez remplacer les paramètres de configuration du cluster par défaut. Par exemple, vous pouvez ajouter des VM secondaires (par défaut = 0) ou spécifier un réseau VPC non par défaut pour le cluster. Pour en savoir plus, consultez la page CreateCluster.
Envoyer une tâche
Les valeurs suivantes sont définies pour envoyer la tâche:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- La configuration de la tâche, qui spécifie le nom du cluster et le chemin d'accès (URI) Cloud Storage de la tâche PySpark
Pour en savoir plus, consultez SubmitJob.
Supprimer le cluster
Les valeurs suivantes sont définies pour supprimer le cluster:
- Le projet dans lequel le cluster sera créé
- Région dans laquelle le cluster sera créé
- Le nom du cluster
Pour en savoir plus, consultez DeleteCluster.