Dataproc sans serveur vous permet d'exécuter des charges de travail Spark sans avoir à provisionner ni à gérer votre propre cluster Dataproc. Il existe deux façons d'exécuter des charges de travail Dataproc sans serveur:
Dataproc sans serveur pour Spark Batch
Envoyez une charge de travail par lot au service Dataproc sans serveur à l'aide de la console Google Cloud, de Google Cloud CLI ou de l'API Dataproc. Le service exécute la charge de travail sur une infrastructure de calcul gérée en effectuant un autoscaling des ressources selon les besoins. Les frais Dataproc sans serveur ne s'appliquent qu'au moment où la charge de travail est exécutée.
Pour commencer, consultez la page Exécuter une charge de travail par lot Apache Spark.
Dataproc sans serveur pour Spark interactif
Écrivez et exécutez du code dans des notebooks Jupyter lors d'une session interactive Dataproc Serverless for Spark. Vous pouvez créer une session de notebook de plusieurs manières:
Utilisez le plug-in Dataproc JupyterLab pour créer plusieurs sessions de notebook à partir de modèles que vous créez et gérez. Lorsque vous installez le plug-in sur un ordinateur local ou une VM Compute Engine, différentes cartes correspondant à différentes configurations de kernel Spark s'affichent sur la page du lanceur JupyterLab. Cliquez sur une fiche pour créer une session de notebook Dataproc sans serveur, puis commencez à écrire et à tester votre code dans le notebook.
Le plug-in Dataproc JupyterLab vous permet également d'utiliser la page du lanceur JupyterLab pour effectuer les actions suivantes:
- Créez des clusters Dataproc sur Compute Engine.
- Envoyez des tâches à Dataproc sur des clusters Compute Engine.
- Afficher les journaux Google Cloud et Spark
Pour commencer, consultez la section Utiliser JupyterLab pour les sessions de notebook et le traitement par lot sans serveur.
Comparaison entre Dataproc sans serveur pour Spark et Dataproc sur Compute Engine
Si vous souhaitez provisionner et gérer une infrastructure, puis exécuter des charges de travail sur Spark et d'autres frameworks de traitement Open Source, utilisez Dataproc sur Compute Engine. Le tableau suivant présente les principales différences entre Dataproc sur Compute Engine et Dataproc sans serveur pour Spark.
Capacité | Dataproc sans serveur pour Spark | Dataproc sur Compute Engine |
---|---|---|
Frameworks de traitement | Par lot: Spark 3.4 ou version antérieure Interactif: noyaux PySpark pour Spark 3.4 ou version antérieure |
Spark 3.3 et versions antérieures D'autres frameworks Open Source, tels que Hive, Flink, Trino et Kafka |
Sans serveur | Oui | Non |
Temps de démarrage | 60 s | Années 90 |
Contrôle de l'infrastructure | Non | Oui |
Gestion des ressources | Basé sur Spark | Basé sur YARN |
Compatibilité avec les GPU | Oui | Oui |
Sessions interactives | Oui | Non |
Conteneurs personnalisés | Oui | Non |
Accès à la VM (par exemple, SSH) | Non | Oui |
Versions Java | Java 17, 11 | Versions précédentes compatibles |
OS Login
Prise en charge * |
Non | Oui |
Remarques :
- Une règle OS Login n'est pas applicable ni compatible avec Dataproc sans serveur.
Si votre organisation applique une règle
OS Login
, ses charges de travail Dataproc sans serveur échoueront.
Conformité de la sécurité Dataproc sans serveur
Dataproc sans serveur respecte toutes les exigences de résidence des données, de CMEK, de VPC-SC et d'autres exigences de sécurité que Dataproc respecte.
Fonctionnalités de la charge de travail par lot Dataproc sans serveur pour Spark
Vous pouvez exécuter les types de charges de travail par lot Dataproc sans serveur pour Spark suivants:
- PySpark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
Vous pouvez spécifier des propriétés Spark lorsque vous envoyez une charge de travail par lot Dataproc sans serveur pour Spark.