2.3.x 发布版本

组件 2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/07/25
2.3.6-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/07/15
2.3.5-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/07/04
2.3.4-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/06/20
Apache Atlas
初始化操作
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
可选 组件
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
已安装
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
已安装
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
可选组件
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
可选组件
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
可选组件
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
初始化操作
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
可选组件
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
已安装
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
初始化操作
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
已安装
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
BigQuery 连接器
已安装
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage 连接器
已安装
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
已安装
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
可选组件
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
可选 组件
28.1 28.1 28.1 28.1 28.1
Hue
初始化操作
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
已安装
11 11 11 11 11
JupyterLab 笔记本
可选组件
3.6 3.6 3.6 3.6 3.6
Oozie
初始化操作
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
已安装
带有 Python 3.11micromamba 2.0.5 带有 Python 3.11micromamba 2.0.5 带有 Python 3.11micromamba 2.0.5 带有 Python 3.11micromamba 2.0.5 带有 Python 3.11micromamba 2.0.5
R
已安装
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
可选组件
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
已安装
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
可选组件
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
可选组件
432 432 432 432 432
Zeppelin 笔记本
可选组件
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
可选组件
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

2.3 中的重要更改:

  • 版本 2.3 是一种仅包含核心组件的轻量级映像,可减少常见漏洞和披露 (CVE) 的风险。如果安全合规性要求较高,请在创建 Dataproc 集群时使用映像版本 2.3 或更高版本。

  • 如果您选择在创建使用 2.3 映像的 Dataproc 集群时安装可选组件,这些组件将在集群创建期间下载并安装。这可能会增加集群启动时间。为避免此延迟,您可以创建预安装了可选组件的自定义映像。这是通过运行带有 --optional-components 标志的 generate_custom_image.py 来实现的。

注意:

  • 以下是 2.3 映像中的可选组件:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab 笔记本
    • Ranger
    • Solr
    • Zeppelin 笔记本
    • ZooKeeper
  • yarn.nodemanager.recovery.enabled 和 HDFS 审核日志记录在 2.3 版映像中默认处于启用状态。

  • micromamba(而不是先前映像版本中的 conda)作为 Python 安装的一部分进行安装。

  • Docker 和 Zeppelin 安装问题:

    • 如果集群没有公共互联网访问权限,则安装会失败。一种解决方法是,创建一个使用预安装了可选组件的自定义映像的集群。为此,您可以运行带有 --optional-components 标志generate_custom_image.py
    • 如果集群固定到较旧的次要映像版本,安装可能会失败:软件包会根据需要从公共 OSS 代码库安装,而上游可能没有可用于支持安装的软件包。 一种解决方法是,创建一个使用自定义映像的集群,并在该自定义映像中预安装可选组件。为此,请运行带有 --optional-components 标志generate_custom_image.py

映像版本 2.3 机器学习 (ML) 组件

Dataproc 2.3-ml-ubuntu 映像通过添加机器学习专用软件来扩展 2.3 基础映像。它支持 2.3 映像可选组件和其他 2.3 功能,并添加了以下部分中列出的组件版本。

GPU 专用库

对于使用 GPU 虚拟机的 Dataproc 作业,2.3-ml-ubuntu 映像中提供了以下 NVIDIA 驱动程序和库。您可以使用这些工具完成以下任务:

  • 使用 NVIDIA Spark Rapids 库加速 Spark 批处理工作负载
  • 训练机器学习工作负载
  • 使用 Spark 运行分布式批量推理
软件包名称 版本
Spark Rapids 25.04.0
NVIDIA 驱动程序 Ubuntu 22.04 LTS 加速版搭配 NVIDIA 驱动程序版本 550
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

XGBoost 库

2.3-ml-ubuntu 映像中提供了以下 Maven 软件包版本,可让您在 Java 或 Scala 中将 XGBoost 与 Spark 搭配使用。

群组 ID 软件包名称 版本
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Python 库

2.3-ml-ubuntu 映像包含以下库,这些库支持机器学习生命周期的不同阶段。

`2.3-ml-ubuntu` 映像 Python 库
软件包 版本
accelerate1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
笔记本6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex2023.12.25
请求2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizers0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
龙卷风6.4.2
torchvision0.21.0
traitlets5.14.3
transformers4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

R 库

2.3-ml-ubuntu 映像中包含以下 R 库版本。

`2.3-ml-ubuntu` 映像 R 库
软件包名称 版本
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3