O
Nesta página, mostramos como criar sessões interativas do Dataproc sem servidor para Apache Spark e modelos de sessão. Um modelo de sessão pode ser usado para criar várias sessões interativas com base na configuração do modelo.
Criar uma sessão interativa
Use a Google Cloud CLI ou a API Dataproc para criar uma sessão interativa do Serverless para Apache Spark.
gcloud
É possível usar o
gcloud beta dataproc sessions create command SESSION_NAME
para
criar uma sessão interativa do Serverless para Apache Spark.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Substitua ou adicione o seguinte:
SESSION_ID: obrigatório. Um ID para a sessão.
REGION: obrigatório. Uma região disponível para localizar sua sessão.
--version
: Opcional. Uma versão do ambiente de execução do Spark compatível. Se você não usar essa flag para especificar uma versão, a versão padrão atual do ambiente de execução do Spark será usada.--container-image
: Opcional. Uma imagem de contêiner personalizada para usar na sessão.--property
: Opcional. Uma ou mais propriedades do Spark separadas por vírgulas para sua sessão.--service-account
: Opcional. A conta de serviço a ser usada na sua sessão. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.--subnet
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
REST
É possível usar a API
sessions.create
do Dataproc para criar uma sessão interativa do Serverless para Apache Spark.
Observações:
name
: Obrigatório. Nome da sessão.version
: Opcional. Qualquer uma das versões do ambiente de execução do Spark compatíveis com sua sessão. Se você não especificar uma versão, a padrão atual será usada.containerImage
: Opcional. Uma imagem de contêiner personalizada para usar na sessão.properties
: Opcional. Um mapeamento de nomes de propriedades da sessão para valores. Consulte Propriedades do Spark.serviceAccount
: Opcional. A conta de serviço a ser usada para executar a sessão. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.subnetworkUri
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
Criar um modelo de sessão
Um modelo de sessão do Serverless para Apache Spark define as configurações para criar uma ou mais sessões interativas do Serverless para Apache Spark. É possível usar o console Google Cloud , a CLI gcloud ou a API Dataproc para criar um modelo de sessão do Serverless para Apache Spark para uma sessão do Jupyter ou do Spark Connect.
Console
Para criar um modelo de sessão do Serverless para Apache Spark usando o console Google Cloud , siga estas etapas:
No console Google Cloud , acesse a página Modelos de sessão.
- Clique em Criar.
Na página Criar modelo de sessão, insira ou confirme as configurações de configuração do modelo. Observe o seguinte:
- ID do ambiente de execução do modelo:obrigatório. Aceite o ID (nome) padrão ou especifique um nome de ambiente de execução do modelo.
- Região: obrigatório. Aceite a região padrão ou especifique uma região disponível para sessões de modelo.
- Versão do ambiente de execução:opcional. Os ambientes de execução de sessão selecionáveis correspondem às
versões de ambiente de execução do Serverless para Apache Spark.
- Requisito da sessão de notebook do BigQuery Studio:se você estiver criando um modelo para usar em sessões do Spark Connect do notebook do BigQuery Studio, ele precisará usar a versão 2.3 ou mais recente do ambiente de execução do Spark.
- Tipo de configuração do modelo:obrigatório. Selecione um tipo. Se você selecionar
Jupyter
, especifique o Nome de exibição e selecione o Tipo de kernel do Jupyter. Consulte também Iniciar um notebook do Jupyter no Serverless para Apache Spark.- Requisito da sessão de notebook do BigQuery Studio:as sessões de notebook do BigQuery Studio precisam especificar o Spark Connect como o tipo de configuração de modelo.
- Conta de serviço:opcional. A conta de serviço a ser usada para executar sessões com modelos. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.
- Imagem de contêiner personalizada:opcional. Uma imagem de contêiner personalizada para usar nas sessões com modelo.
- Propriedades:opcional. Clique em Adicionar item para cada propriedade que você quer definir para suas sessões com modelo. Para mais informações, consulte Propriedades do Spark.
- Configuração de rede: * obrigatório. Selecione uma sub-rede na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede especificada. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.
Clique em Enviar para criar o modelo de sessão.
gcloud
Não é possível criar diretamente um modelo de sessão do Serverless para Apache Spark usando a
CLI gcloud, mas é possível usar o comando gcloud beta dataproc session-templates import
para importar um modelo de sessão atual. É possível editar o modelo importado e exportá-lo usando o comando gcloud beta dataproc session-templates export
.
REST
É possível usar a API
sessionTemplates.create
do Dataproc para criar um modelo de sessão sem servidor para Apache Spark.
Observações:
name
: Obrigatório. Nome do modelo de sessão.version
: Opcional. Qualquer uma das versões do ambiente de execução do Spark compatíveis para suas sessões com modelos. Se você não especificar uma versão, a padrão será usada.- Requisito da sessão de notebook do BigQuery Studio:se você estiver criando um modelo para usar em sessões do Spark Connect do notebook do BigQuery Studio, ele precisará usar a versão 2.3 ou mais recente do ambiente de execução do Spark.
sessionConfig
: especifiquejupyter_session
ouspark_connect_session
. Se você especificarjupyter_session
, também especifiqueJupyterConfig.display_name
eJupyterConfig.kernel
. Consulte também Iniciar um notebook do Jupyter no Serverless para Apache Spark.- Requisito da sessão de notebook do BigQuery Studio:as sessões de notebook do BigQuery Studio precisam especificar o Spark Connect como o tipo de configuração de modelo.
containerImage
: Opcional. Uma imagem de contêiner personalizada para usar nas sessões com modelo.properties
: Opcional. Um mapeamento de nomes de propriedades da sessão para valores. Consulte Propriedades do Spark.serviceAccount
: Opcional. Uma conta de serviço para usar na execução das sessões com modelo. Se não for especificada, a conta de serviço padrão do Compute Engine será usada.subnetworkUri
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usará a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para requisitos de conectividade de rede, consulte Google Cloud Configuração de rede do Serverless para Apache Spark.