Cette page explique comment créer des sessions interactives et des modèles de session Dataproc sans serveur. Un modèle de session peut être utilisé pour créer plusieurs sessions interactives en fonction de la configuration du modèle de session.
Créer une session Dataproc sans serveur
Vous pouvez utiliser la console Google Cloud, la Google Cloud CLI ou l'API Dataproc pour créer une session interactive Dataproc sans serveur.
Console
Pour créer une session Dataproc sans serveur à l'aide de la console Google Cloud, procédez comme suit:
Dans la console Google Cloud, accédez à la page Sessions interactives.
Accéder aux sessions interactives
- Cliquez sur Créer.
Sur la page Ajouter une session interactive (Preview), saisissez ou confirmez les paramètres de configuration de la session. Veuillez noter les points suivants :
- Nom de la session interactive:obligatoire. Acceptez le nom par défaut ou spécifiez un nom de session.
- Région: obligatoire. Acceptez la région par défaut ou spécifiez une région disponible pour votre session.
- Configuration de l'environnement d'exécution:facultatif. Les environnements d'exécution de session sélectionnables correspondent aux versions d'exécution Dataproc sans serveur pour Spark disponibles. Vous pouvez spécifier une image de conteneur personnalisée à utiliser pour votre session.
- Propriétés:facultatif. Cliquez sur Ajouter un élément pour chaque propriété à définir pour votre session. Pour en savoir plus, consultez la section Propriétés Spark.
- UI Spark (Preview) : facultatif. Vous pouvez utiliser l'interface utilisateur Spark pour collecter et surveiller les détails de l'exécution de la session.
- Compte de service:facultatif. Compte de service à utiliser pour la session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.
- Configuration réseau:requise. L'sous-réseau de la session doit être configuré avec l'accès privé à Google (PGA) activé et doit autoriser la communication de sous-réseau sur tous les ports. Seuls les réseaux avec des sous-réseaux dans la région de session spécifiée avec PGA activé sont listés dans cette section. Pour en savoir plus, consultez la section Configuration du réseau Dataproc sans serveur pour Spark.
Cliquez sur Envoyer pour créer la session.
gcloud
Vous pouvez utiliser gcloud beta dataproc sessions create command SESSION_NAME
pour créer une session interactive Dataproc sans serveur.
Remarques sur les options de commande:
--region
: valeur obligatoire. Une région disponible pour votre session.--version
: facultatif. Une version d'exécution Spark compatible. Si vous n'utilisez pas cet indicateur pour spécifier une version, la version d'exécution Spark par défaut actuelle est utilisée.--container-image
: facultatif. Une image de conteneur personnalisée à utiliser pour votre session.--property
: facultatif. Une ou plusieurs propriétés Spark séparées par une virgule pour votre session.--service-account
: facultatif. Compte de service à utiliser pour votre session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.--subnet
: facultatif. Un sous-réseau VPC au format suivant:projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
- REGION:
--region
que vous avez sélectionné pour votre session. - SUBNET_NAME: l'accès privé à Google (PGA) doit être activé sur le sous-réseau et autoriser la communication de sous-réseau sur tous les ports. Pour en savoir plus, consultez la section Configuration du réseau Dataproc sans serveur pour Spark.
- REGION:
REST
Vous pouvez utiliser l'API Dataproc sessions.create
pour créer une session interactive Dataproc sans serveur.
Remarques :
name
: obligatoire. Nom de la session.version
: facultatif. N'importe quelle version d'environnement d'exécution Spark compatible pour votre session. Si vous ne spécifiez pas de version, la version par défaut actuelle est utilisée.containerImage
: facultatif. Une image de conteneur personnalisée à utiliser pour votre session.properties
: facultatif. Mappage des noms de propriétés de session sur des valeurs. Consultez la section Propriétés Spark.serviceAccount
: facultatif. Compte de service à utiliser pour exécuter votre session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.subnetworkUri
: facultatif. Un sous-réseau VPC pour votre session au format suivant: L'accès privé à Google (PGA) doit être activé sur le sous-réseau et permettre la communication de sous-réseau sur tous les ports. Pour en savoir plus, consultez la section Configuration du réseau Dataproc sans serveur pour Spark.projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
Créer un modèle de session Dataproc sans serveur
Un modèle de session Dataproc sans serveur définit les paramètres de configuration pour la création d'une ou de plusieurs sessions interactives Dataproc sans serveur.
Vous pouvez utiliser la console Google Cloud, gcloud CLI ou l'API Dataproc pour créer un modèle de session Dataproc sans serveur.
Console
Pour créer un modèle de session Dataproc sans serveur à l'aide de la console Google Cloud, procédez comme suit:
Dans la console Google Cloud, accédez à la page Modèles de session interactive.
Accéder à la page "Modèles de sessions interactives"
- Cliquez sur Créer.
Sur la page Créer un modèle de session, saisissez ou confirmez les paramètres de configuration du modèle. Veuillez noter les points suivants :
- ID d'exécution du modèle:obligatoire. Acceptez l'ID (nom) par défaut ou spécifiez un nom d'exécution du modèle.
- Région: obligatoire. Acceptez la région par défaut ou spécifiez une région disponible pour les sessions de modèle.
- Version d'exécution:facultatif. Les environnements d'exécution de session sélectionnables correspondent aux versions d'exécution Dataproc sans serveur pour Spark.
- Template configuration type (Type de configuration du modèle) : obligatoire. Sélectionnez un type. Si vous sélectionnez
Jupyter
, spécifiez le nom à afficher et sélectionnez le type de kernel Jupyter. Pour en savoir plus, consultez la section Lancer un notebook Jupyter sur Dataproc sans serveur. - Compte de service:facultatif. Compte de service à utiliser pour exécuter des sessions modélisées. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.
- Image de conteneur personnalisée:facultatif. Une image de conteneur personnalisée à utiliser pour vos sessions modélisées.
- Propriétés:facultatif. Cliquez sur Ajouter un élément pour chaque propriété à définir pour vos sessions modélisées. Pour en savoir plus, consultez la section Propriétés Spark.
- Configuration réseau : * Obligatoire. L'sous-réseau de la session doit être configuré avec l'accès privé à Google (PGA) activé et doit autoriser la communication de sous-réseau sur tous les ports. Seuls les réseaux avec des sous-réseaux dans la session Region (Région) avec PGA activé sont listés dans cette section. Pour en savoir plus, consultez la section Configuration du réseau Dataproc sans serveur pour Spark.
Cliquez sur Envoyer pour créer le modèle de session.
gcloud
Vous ne pouvez pas créer directement un modèle de session sans serveur Dataproc à l'aide de la gcloud CLI, mais vous pouvez utiliser la commande gcloud beta dataproc session-templates import
pour importer un modèle de session existant. Vous pouvez modifier le modèle importé, puis l'exporter à l'aide de la commande gcloud beta dataproc session-templates export
.
REST
Vous pouvez utiliser l'API Dataproc sessionTemplates.create
pour créer un modèle de session Dataproc sans serveur.
Remarques :
name
: obligatoire. Nom du modèle de session.version
: facultatif. Toutes les versions d'exécution Spark compatibles pour vos sessions modélisées. Si vous ne spécifiez pas de version, la version par défaut est utilisée.containerImage
: facultatif. Une image de conteneur personnalisée à utiliser pour vos sessions modélisées.properties
: facultatif. Mappage des noms de propriétés de session sur des valeurs. Consultez la section Propriétés Spark.serviceAccount
: facultatif. Un compte de service à utiliser pour exécuter vos sessions modélisées. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.subnetworkUri
: facultatif. Un sous-réseau VPC pour vos sessions modélisées au format suivant: L'accès privé à Google (PGA) doit être activé sur le sous-réseau et permettre la communication de sous-réseau sur tous les ports. Pour en savoir plus, consultez la section Configuration du réseau Dataproc sans serveur pour Spark.projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME