O Dataproc sem servidor permite executar cargas de trabalho do Spark sem que você precise para provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Dataproc sem servidor:
Dataproc sem servidor para lote do Spark
Usar o console do Google Cloud, a Google Cloud CLI ou a API Dataproc para enviar uma carga de trabalho em lote para o serviço do Dataproc sem servidor. O serviço vai executar a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático dos recursos conforme necessário. As cobranças do Dataproc sem servidor se aplicam somente a o momento em que a carga de trabalho está sendo executada.
Para começar, consulte Execute uma carga de trabalho em lote do Apache Spark.
Dataproc Serverless for Spark Interactive
Escrever e executar código em notebooks do Jupyter durante um período do Dataproc sem servidor para Sessão interativa do Spark. É possível criar uma sessão de notebook nas seguintes maneiras:
Use o plug-in do Dataproc JupyterLab para criar várias sessões de notebook com base em modelos que você cria e gerencia. Quando você instala em uma máquina local ou VM do Compute Engine, placas diferentes que correspondem a diferentes configurações do kernel do Spark aparecem na parte Página inicial do JupyterLab. Clique em um card para criar uma instância do Dataproc sem servidor sessão de notebook e comece a escrever e testar seu código nele.
O plug-in do JupyterLab do Dataproc também permite usar a página de inicialização do JupyterLab para realizar as seguintes ações:
- Criar clusters do Dataproc no Compute Engine.
- Enviar jobs para clusters do Dataproc no Compute Engine.
- Acessar os registros do Google Cloud e do Spark.
Para começar, consulte Use o JupyterLab para sessões interativas de notebook e em lote sem servidor.
Dataproc sem servidor para Spark em comparação com o Dataproc no Compute Engine
Dataproc no Compute Engine é a opção ideal se você quer provisionar e gerenciar a infraestrutura e cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e Dataproc sem servidor para Spark.
Capacidade | Dataproc sem servidor para Spark | Dataproc no Compute Engine |
---|---|---|
Estruturas de processamento | Lote: Spark 3.4 e versões anteriores Interativo: kernels do PySpark para o Spark 3.4 e versões anteriores |
Spark 3.3 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka. |
Sem servidor | Sim | Não |
Tempo de inicialização | 60 s | Anos 90 |
Controle da infraestrutura | Não | Sim |
Gerenciamento de recursos | Baseado em Spark | Com base em YARN |
Suporte a GPUs | Sim | Sim |
Sessões interativas | Sim | Não |
Contêineres personalizados | Sim | Não |
Acesso à VM (por exemplo, SSH) | Não | Sim |
Versões do Java | Java 17 e 11 | Versões anteriores com suporte |
OS Login
Suporte * |
Não | Sim |
Observações:
- Uma política de Login do SO não é aplicável ou compatível com o Dataproc sem servidor.
Se a organização aplicar uma política
OS Login
, as cargas de trabalho do Dataproc sem servidor vai falhar.
Compliance de segurança do Dataproc sem servidor
O Dataproc sem servidor adere a toda a residência de dados, CMEK VPC-SC, e outros requisitos de segurança com os quais o Dataproc está em conformidade.
Dataproc sem servidor para recursos de carga de trabalho em lote do Spark
É possível executar os seguintes tipos de carga de trabalho em lote do Dataproc sem servidor para o Spark:
- Pyspark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
É possível especificar as propriedades do Spark quando você envia uma carga de trabalho em lote do Dataproc sem servidor para Spark.