Cette page explique comment créer des sessions interactives et des modèles de session Dataproc sans serveur. Un modèle de session peut être utilisé pour créer plusieurs sessions interactives en fonction de la configuration du modèle de session.
Créer une session Spark Connect
Vous pouvez utiliser la console Google Cloud , la Google Cloud CLI ou l'API Dataproc pour créer une session interactive Dataproc sans serveur.
Console
Pour créer une session Dataproc sans serveur à l'aide de la console Google Cloud , procédez comme suit:
Dans la console Google Cloud , accédez à la page Sessions interactives.
Accéder aux sessions interactives
- Cliquez sur Créer.
Sur la page Ajouter une session interactive (Preview), saisissez ou confirmez les paramètres de configuration de la session. Veuillez noter les points suivants :
- Nom de la session interactive:obligatoire. Acceptez le nom par défaut ou spécifiez un nom de session.
- Région: obligatoire. Acceptez la région par défaut ou spécifiez une région disponible pour votre session.
- Configuration de l'environnement d'exécution:facultatif. Les environnements d'exécution de session sélectionnables correspondent aux versions d'exécution Dataproc sans serveur disponibles. Vous pouvez spécifier une image de conteneur personnalisée à utiliser pour votre session.
- Propriétés:facultatif. Cliquez sur Ajouter un élément pour chaque propriété à définir pour votre session. Pour en savoir plus, consultez la section Propriétés Spark.
- UI Spark (Preview) : facultatif. Vous pouvez utiliser l'interface utilisateur Spark pour collecter et surveiller les détails de l'exécution de la session.
- Compte de service:facultatif. Compte de service à utiliser pour la session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.
- Configuration réseau:requise. Sélectionnez un sous-réseau dans la région de la session. Dataproc sans serveur active l'accès privé à Google (PGA) sur le sous-réseau. Pour connaître les exigences de connectivité réseau, consultez la section Configuration du réseau Dataproc sans serveur.
Cliquez sur Envoyer pour créer la session.
gcloud
Vous pouvez utiliser gcloud beta dataproc sessions create command SESSION_NAME
pour créer une session interactive Dataproc sans serveur.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Remplacez ou ajoutez les éléments suivants:
SESSION_ID : valeur obligatoire. ID de la session.
REGION : valeur obligatoire. Une région disponible pour localiser votre session.
--version
: facultatif. Une version d'exécution Spark compatible. Si vous n'utilisez pas cet indicateur pour spécifier une version, la version d'exécution Spark par défaut actuelle est utilisée.--container-image
: facultatif. Une image de conteneur personnalisée à utiliser pour votre session.--property
: facultatif. Une ou plusieurs propriétés Spark séparées par une virgule pour votre session.--service-account
: facultatif. Compte de service à utiliser pour votre session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.--subnet
: facultatif. Nom d'un sous-réseau dans la région de la session. Si cette option n'est pas spécifiée, Dataproc Serverless utilise le sous-réseaudefault
dans la région de la session. Dataproc sans serveur active l'accès privé à Google (PGA) sur le sous-réseau. Pour connaître les exigences de connectivité réseau, consultez la section Configuration du réseau Dataproc sans serveur.
REST
Vous pouvez utiliser l'API Dataproc sessions.create
pour créer une session interactive Dataproc sans serveur.
Remarques :
name
: obligatoire. Nom de la session.version
: facultatif. N'importe quelle version d'exécution Spark compatible pour votre session. Si vous ne spécifiez pas de version, la version par défaut actuelle est utilisée.containerImage
: facultatif. Une image de conteneur personnalisée à utiliser pour votre session.properties
: facultatif. Mappage des noms de propriétés de session sur des valeurs. Consultez la section Propriétés Spark.serviceAccount
: facultatif. Compte de service à utiliser pour exécuter votre session. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.subnetworkUri
: facultatif. Nom d'un sous-réseau dans la région de la session. Si cette option n'est pas spécifiée, Dataproc Serverless utilise le sous-réseaudefault
dans la région de la session. Dataproc sans serveur active l'accès privé à Google (PGA) sur le sous-réseau. Pour connaître les exigences de connectivité réseau, consultez la section Configuration du réseau Dataproc sans serveur.
Créer un modèle de session
Un modèle de session Dataproc sans serveur définit les paramètres de configuration permettant de créer une ou plusieurs sessions interactives Dataproc sans serveur. Vous pouvez utiliser la console Google Cloud , gcloud CLI ou l'API Dataproc pour créer un modèle de session Dataproc sans serveur pour une session Jupyter ou Spark Connect.
Console
Pour créer un modèle de session Dataproc sans serveur à l'aide de la console Google Cloud , procédez comme suit:
Dans la console Google Cloud , accédez à la page Modèles de session.
Accéder à "Modèles de session"
- Cliquez sur Créer.
Sur la page Créer un modèle de session, saisissez ou confirmez les paramètres de configuration du modèle. Veuillez noter les points suivants :
- ID d'exécution du modèle:obligatoire. Acceptez l'ID (nom) par défaut ou spécifiez un nom d'exécution du modèle.
- Région: obligatoire. Acceptez la région par défaut ou spécifiez une région disponible pour les sessions de modèle.
- Version d'exécution:facultatif. Les environnements d'exécution de session sélectionnables correspondent aux versions d'exécution Dataproc sans serveur.
- Exigences concernant les sessions de notebook BigQuery Studio:si vous créez un modèle à utiliser pour les sessions Spark Connect de notebook BigQuery Studio, il doit utiliser la version 2.3 ou ultérieure de l'environnement d'exécution Spark.
- Template configuration type (Type de configuration du modèle) : obligatoire. Sélectionnez un type. Si vous sélectionnez
Jupyter
, spécifiez le nom à afficher et sélectionnez le type de kernel Jupyter. Consultez également Lancer un notebook Jupyter sur Dataproc sans serveur.- Exigences concernant les sessions de notebook BigQuery Studio:les sessions de notebook BigQuery Studio doivent spécifier Spark Connect comme type de configuration du modèle.
- Compte de service:facultatif. Compte de service à utiliser pour exécuter des sessions modélisées. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.
- Image de conteneur personnalisée:facultatif. Une image de conteneur personnalisée à utiliser pour vos sessions modélisées.
- Propriétés:facultatif. Cliquez sur Ajouter un élément pour chaque propriété à définir pour vos sessions modélisées. Pour en savoir plus, consultez la section Propriétés Spark.
- Configuration réseau : * Obligatoire. Sélectionnez un sous-réseau dans la région de la session. Dataproc sans serveur active l'accès privé à Google (PGA) sur le sous-réseau spécifié. Pour connaître les exigences de connectivité réseau, consultez la section Configuration du réseau Dataproc sans serveur.
Cliquez sur Envoyer pour créer le modèle de session.
gcloud
Vous ne pouvez pas créer directement un modèle de session sans serveur Dataproc à l'aide de la gcloud CLI, mais vous pouvez utiliser la commande gcloud beta dataproc session-templates import
pour importer un modèle de session existant. Vous pouvez modifier le modèle importé, puis l'exporter à l'aide de la commande gcloud beta dataproc session-templates export
.
REST
Vous pouvez utiliser l'API Dataproc sessionTemplates.create
pour créer un modèle de session Dataproc sans serveur.
Remarques :
name
: obligatoire. Nom du modèle de session.version
: facultatif. Toutes les versions d'exécution Spark compatibles pour vos sessions modélisées. Si vous ne spécifiez pas de version, la version par défaut est utilisée.- Exigences concernant les sessions de notebook BigQuery Studio:si vous créez un modèle à utiliser pour les sessions Spark Connect de notebook BigQuery Studio, il doit utiliser la version 2.3 ou ultérieure de l'environnement d'exécution Spark.
sessionConfig
: spécifiezjupyter_session
ouspark_connect_session
. Si vous spécifiezjupyter_session
, spécifiez égalementJupyterConfig.display_name
etJupyterConfig.kernel
. Consultez également Lancer un notebook Jupyter sur Dataproc sans serveur.- Exigences concernant les sessions de notebook BigQuery Studio:les sessions de notebook BigQuery Studio doivent spécifier Spark Connect comme type de configuration du modèle.
containerImage
: facultatif. Une image de conteneur personnalisée à utiliser pour vos sessions modélisées.properties
: facultatif. Mappage des noms de propriétés de session sur des valeurs. Consultez la section Propriétés Spark.serviceAccount
: facultatif. Un compte de service à utiliser pour exécuter vos sessions modélisées. Si elle n'est pas spécifiée, le compte de service Compute Engine par défaut est utilisé.subnetworkUri
: facultatif. Nom d'un sous-réseau dans la région de la session. Si cette option n'est pas spécifiée, Dataproc Serverless utilise le sous-réseaudefault
dans la région de la session. Dataproc sans serveur active l'accès privé à Google (PGA) sur le sous-réseau. Pour connaître les exigences de connectivité réseau, consultez la section Configuration du réseau Dataproc sans serveur.