Visão geral do Serverless para Apache Spark

O

Com o Serverless para Apache Spark, você executa cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Serverless para Apache Spark:

Cargas de trabalho em lote

Envie uma carga de trabalho em lote para o serviço sem servidor para Apache Spark usando o consoleGoogle Cloud , Google Cloud CLI ou a API Dataproc. O serviço executa a carga de trabalho em uma infraestrutura de computação gerenciada, com escalonamento automático de recursos conforme necessário. As cobranças do Serverless para Apache Spark se aplicam somente ao momento em que a carga de trabalho está em execução.

Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

Sessões interativas

Escrever e executar código em notebooks Jupyter durante uma sessão interativa do Dataproc sem servidor para Apache Spark. É possível criar uma sessão de notebook das seguintes maneiras:

  • Executar código PySpark em notebooks do BigQuery Studio. Use o notebook Python do BigQuery para criar uma sessão interativa do Serverless para Apache Spark baseada no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Serverless para Apache Spark associada a ele.

  • Use o plug-in do Dataproc JupyterLab para criar várias sessões de notebook Jupyter com base em modelos que você cria e gerencia. Ao instalar o plug-in em uma máquina local ou em uma VM do Compute Engine, diferentes cards correspondentes a diferentes configurações de kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Serverless para Apache Spark e comece a escrever e testar seu código no notebook.

    O plug-in do JupyterLab para Dataproc também permite usar a página de inicialização do JupyterLab para realizar as seguintes ações:

    • Crie clusters do Dataproc no Compute Engine.
    • Envie jobs para clusters do Dataproc no Compute Engine.
    • Ver Google Cloud e registros do Spark.

Sem servidor para Apache Spark em comparação com o Dataproc no Compute Engine

Se você quiser provisionar e gerenciar a infraestrutura e executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto, use o Dataproc no Compute Engine. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Serverless para Apache Spark.

Capacidade Serverless para Apache Spark Dataproc no Compute Engine
Frameworks de processamento Cargas de trabalho em lote: Spark 3.5 e versões anteriores
Sessões interativas: Spark 3.5 e versões anteriores
Spark 3.5 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka
Sem servidor Sim Não
Tempo de inicialização 60 s 90
Controle de infraestrutura Não Sim
Gerenciamento de recursos Com base no Spark Baseado em YARN
Suporte a GPUs Sim Sim
Sessões interativas Sim Não
Contêineres personalizados Sim Não
Acesso à VM (por exemplo, SSH) Não Sim
Versões do Java Java 17, 11 Versões anteriores com suporte

Compliance da segurança

O Serverless para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança que o Dataproc atende.

Recursos de carga de trabalho em lote

É possível executar os seguintes tipos de carga de trabalho em lote do Serverless para Apache Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Serverless para Apache Spark.