Questa pagina mostra come creare sessioni interattive e modelli di sessione Dataproc Serverless. Un modello di sessione può essere utilizzato per creare più sessioni interattive in base alla configurazione del modello di sessione.
Creare una sessione Spark Connect
Puoi utilizzare la Google Cloud console, Google Cloud CLI o l'API Dataproc per creare una sessione interattiva Dataproc Serverless.
Console
Per creare una sessione Dataproc Serverless utilizzando la Google Cloud console, completa i seguenti passaggi:
Nella Google Cloud console, vai alla pagina Sessioni interattive.
- Fai clic su Crea.
Nella pagina Aggiungi una sessione interattiva (anteprima), inserisci o conferma le impostazioni di configurazione della sessione. Tieni presente quanto segue:
- Nome della sessione interattiva: obbligatorio. Accetta il nome predefinito o specifica un nome per la sessione.
- Regione: obbligatoria. Accetta la regione predefinita o specifica una regione disponibile per la sessione.
- Configurazione del runtime:facoltativa. I runtime delle sessioni selezionabili corrispondono alle versioni del runtime Dataproc Serverless disponibili. Puoi specificare un'immagine container personalizzata da utilizzare per la sessione.
- Proprietà:facoltativo. Fai clic su Aggiungi elemento per ogni proprietà da impostare per la sessione. Per ulteriori informazioni, consulta Proprietà Spark.
- UI Spark (anteprima): facoltativo. Puoi utilizzare l'interfaccia utente di Spark per raccogliere e monitorare i dettagli di esecuzione della sessione.
- Account di servizio:facoltativo. Il service account da utilizzare per la sessione. Se non specificato, viene utilizzato il service account predefinito di Compute Engine.
- Configurazione di rete: obbligatoria. Seleziona una subnet nella regione della sessione. Dataproc Serverless attiva l'accesso privato Google (PGA) sulla subnet. Per i requisiti di connettività di rete, consulta Configurazione di rete di Dataproc Serverless.
Fai clic su Invia per creare la sessione.
gcloud
Puoi utilizzare gcloud beta dataproc sessions create command SESSION_NAME
per creare una sessione interattiva Dataproc Serverless.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Sostituisci o aggiungi quanto segue:
SESSION_ID: obbligatorio. Un ID per la sessione.
REGION: obbligatorio. Una regione disponibile per localizzare la sessione.
--version
: facoltativo. Una versione del runtime Spark supportata. Se non utilizzi questo flag per specificare una versione, viene utilizzata la versione predefinita corrente del runtime Spark.--container-image
: facoltativo. Un'immagine container personalizzata da utilizzare per la sessione.--property
: facoltativo. Una o più proprietà Spark separate da virgole per la sessione.--service-account
: facoltativo. L'account di servizio da utilizzare per la sessione. Se non specificato, viene utilizzato il service account predefinito di Compute Engine.--subnet
: facoltativo. Il nome di una subnet nella regione della sessione. Se non specificato, Dataproc Serverless utilizza la sottoretedefault
nella regione della sessione. Dataproc Serverless attiva l'accesso privato Google (PGA) sulla subnet. Per i requisiti di connettività di rete, consulta Configurazione di rete di Dataproc Serverless.
REST
Puoi utilizzare l'API Dataproc
sessions.create
per creare una sessione interattiva Dataproc Serverless.
Note:
name
: obbligatoria. Nome della sessione.version
: facoltativo. Qualsiasi delle versioni di runtime Spark supportate per la sessione. Se non specifichi una versione, viene utilizzata la versione predefinita corrente.containerImage
: facoltativo. Un'immagine container personalizzata da utilizzare per la sessione.properties
: facoltativo. Una mappatura dei nomi delle proprietà della sessione ai valori. Consulta Proprietà Spark.serviceAccount
: facoltativo. Il service account da utilizzare per eseguire la sessione. Se non specificato, viene utilizzato il service account predefinito di Compute Engine.subnetworkUri
: facoltativo. Il nome di una subnet nella regione della sessione. Se non specificato, Dataproc Serverless utilizza la sottoretedefault
nella regione della sessione. Dataproc Serverless attiva l'accesso privato Google (PGA) sulla subnet. Per i requisiti di connettività di rete, consulta Configurazione di rete di Dataproc Serverless.
Crea un modello di sessione
Un modello di sessione Dataproc Serverless definisce le impostazioni di configurazione per la creazione di una o più sessioni interattive Dataproc Serverless. Puoi utilizzare la Google Cloud console, gcloud CLI o l'API Dataproc per creare un modello di sessione Dataproc Serverless per una sessione Jupyter o Spark Connect.
Console
Per creare un modello di sessione Dataproc Serverless utilizzando la Google Cloud console, completa i seguenti passaggi:
Nella Google Cloud console, vai alla pagina Modelli di sessione.
- Fai clic su Crea.
Nella pagina Crea modello sessione, inserisci o conferma le impostazioni di configurazione del modello. Tieni presente quanto segue:
- ID runtime del modello:obbligatorio. Accetta l'ID (nome) predefinito o specifica un nome di runtime del modello.
- Regione: obbligatoria. Accetta la regione predefinita o specifica una regione disponibile per le sessioni dei modelli.
- Versione del runtime:facoltativa. I runtime delle sessioni selezionabili corrispondono alle versioni del runtime Dataproc Serverless.
- Requisito per le sessioni del notebook BigQuery Studio: se stai creando un modello da utilizzare per le sessioni Spark Connect del notebook BigQuery Studio, deve utilizzare la versione 2.3 o successive del runtime Spark.
- Tipo di configurazione del modello:obbligatorio. Seleziona un tipo. Se selezioni
Jupyter
, specifica il Nome visualizzato e seleziona il Tipo di kernel Jupyter. Consulta anche Avvia un notebook Jupyter su Dataproc Serverless.- Requisito per le sessioni dei notebook BigQuery Studio: le sessioni dei notebook BigQuery Studio devono specificare Spark Connect come tipo di configurazione del modello.
- Account di servizio:facoltativo. L'account di servizio da utilizzare per eseguire sessioni basate su modelli. Se non specificato, viene utilizzato il service account predefinito di Compute Engine.
- Immagine del container personalizzato:facoltativa. Un'immagine container personalizzata da utilizzare per le sessioni basate su modelli.
- Proprietà:facoltativo. Fai clic su Aggiungi elemento per ogni proprietà da impostare per le sessioni basate su modelli. Per ulteriori informazioni, consulta Proprietà Spark.
- Configurazione di rete: * Obbligatorio. Seleziona una subnet nella regione della sessione. Dataproc Serverless abilita l'accesso privato Google (PGA) sulla subnet specificata. Per i requisiti di connettività di rete, consulta Configurazione di rete di Dataproc Serverless.
Fai clic su Invia per creare il modello di sessione.
gcloud
Non puoi creare direttamente un modello di sessione Dataproc Serverless utilizzando gcloud CLI, ma puoi utilizzare il comando gcloud beta dataproc session-templates import
per importare un modello di sessione esistente. Puoi modificare il modello importato
e poi esportarlo utilizzando il comando gcloud beta dataproc session-templates export
.
REST
Puoi utilizzare l'API Dataproc
sessionTemplates.create
per creare un modello di sessione Dataproc Serverless.
Note:
name
: obbligatoria. Nome del modello di sessione.version
: facoltativo. Qualsiasi delle versioni del runtime Spark supportate per le sessioni basate su modelli. Se non specifichi una versione, viene utilizzata la versione predefinita.- Requisito per le sessioni del notebook BigQuery Studio: se stai creando un modello da utilizzare per le sessioni Spark Connect del notebook BigQuery Studio, deve utilizzare la versione 2.3 o successive del runtime Spark.
sessionConfig
: specificajupyter_session
ospark_connect_session
. Se specifichijupyter_session
, specifica ancheJupyterConfig.display_name
eJupyterConfig.kernel
. Consulta anche Avvia un notebook Jupyter su Dataproc Serverless.- Requisito per le sessioni dei notebook BigQuery Studio: le sessioni dei notebook BigQuery Studio devono specificare Spark Connect come tipo di configurazione del modello.
containerImage
: facoltativo. Un'immagine container personalizzata da utilizzare per le sessioni basate su modelli.properties
: facoltativo. Una mappatura dei nomi delle proprietà della sessione ai valori. Consulta Proprietà Spark.serviceAccount
: facoltativo. Un account di servizio da utilizzare per eseguire le sessioni basate su modelli. Se non specificato, viene utilizzato il service account predefinito di Compute Engine.subnetworkUri
: facoltativo. Il nome di una subnet nella regione della sessione. Se non specificato, Dataproc Serverless utilizza la sottoretedefault
nella regione della sessione. Dataproc Serverless attiva l'accesso privato Google (PGA) sulla subnet. Per i requisiti di connettività di rete, consulta Configurazione di rete di Dataproc Serverless.