Serverless per Apache Spark ti consente di eseguire workload Spark senza richiedere il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire i workload Serverless per Apache Spark:
Workload batch
Invia un carico di lavoro batch al servizio Serverless per Apache Spark utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc. Il servizio esegue il workload su un'infrastruttura di calcolo gestita, scalando le risorse in base alle esigenze. Gli addebiti per Serverless per Apache Spark si applicano solo al periodo di esecuzione del workload.
Per iniziare, vedi Esegui un workload batch Apache Spark.
Sessioni interattive
Scrivi ed esegui codice nei notebook Jupyter durante una sessione interattiva di Serverless per Apache Spark. Puoi creare una sessione del notebook nei seguenti modi:
Esegui il codice PySpark nei blocchi note di BigQuery Studio. Utilizza il notebook Python BigQuery per creare una sessione interattiva di Serverless per Apache Spark basata su Spark Connect. A ogni notebook BigQuery può essere associata una sola sessione Serverless per Apache Spark attiva.
Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni del notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del notebook Serverless per Apache Spark, quindi inizia a scrivere e testare il codice nel notebook.
Il plug-in JupyterLab di Dataproc ti consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Dataproc su Compute Engine.
- Invia job ai cluster Dataproc su Compute Engine.
- Visualizza i log Google Cloud e Spark.
Serverless per Apache Spark rispetto a Dataproc su Compute Engine
Se vuoi eseguire il provisioning e gestire l'infrastruttura ed eseguire carichi di lavoro su Spark e altri framework di elaborazione open source, utilizza Dataproc su Compute Engine. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Serverless per Apache Spark.
Capacità | Serverless per Apache Spark | Dataproc su Compute Engine |
---|---|---|
Framework di elaborazione | Carichi di lavoro batch: Spark 3.5 e versioni precedenti Sessioni interattive: Spark 3.5 e versioni precedenti |
Spark 3.5 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka |
Serverless | Sì | No |
Tempi di avvio | 60 secondi | 90 secondi |
Controllo dell'infrastruttura | No | Sì |
Gestione delle risorse | Basato su Spark | Basato su YARN |
Supporto GPU | Sì | Sì |
Sessioni interattive | Sì | No |
Container personalizzati | Sì | No |
Accesso alla VM (ad esempio, SSH) | No | Sì |
Versioni di Java | Java 17, 11 | Versioni precedenti supportate |
Conformità ai requisiti di sicurezza
Serverless per Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza rispettati da Dataproc.
Funzionalità del carico di lavoro batch
Puoi eseguire i seguenti tipi di workload batch Serverless per Apache Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puoi specificare le proprietà Spark quando invii un carico di lavoro batch Serverless per Apache Spark.