2.3.x リリース バージョン

コンポーネント 2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/07/25
2.3.6-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/07/15
2.3.5-debian12/
-ubuntu22/
-ml-ubuntu22/
-rocky9
2025/07/04
Apache Atlas
初期化アクション
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
オプション コンポーネント
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
インストール済み
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
インストール済み
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
オプション コンポーネント
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
オプション コンポーネント
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
オプション コンポーネント
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
初期化アクション
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
オプション コンポーネント
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
インストール済み
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
初期化アクション
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
インストール済み
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
BigQuery Connector
インストール済み
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage コネクタ
インストール済み
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
インストール済み
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
オプション コンポーネント
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
オプション コンポーネント
28.1 28.1 28.1 28.1 28.1
Hue
初期化アクション
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
インストール済み
11 11 11 11 11
JupyterLab ノートブック
オプション コンポーネント
3.6 3.6 3.6 3.6 3.6
Oozie
初期化アクション
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
インストール済み
micromamba 2.0.5Python 3.11 micromamba 2.0.5Python 3.11 micromamba 2.0.5Python 3.11 micromamba 2.0.5Python 3.11 micromamba 2.0.5Python 3.11
R
インストール済み
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
オプション コンポーネント
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
インストール済み
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
オプション コンポーネント
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
オプション コンポーネント
432 432 432 432 432
Zeppelin ノートブック
オプション コンポーネント
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
オプション コンポーネント
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

2.3 の重要な変更点:

  • バージョン 2.3 は、コア コンポーネントのみを含む軽量イメージであり、共通脆弱性識別子(CVE)への露出を減らします。セキュリティ コンプライアンスの要件が高い場合は、Dataproc クラスタの作成時にイメージ バージョン 2.3 以降を使用します。

  • 2.3 イメージで Dataproc クラスタを作成するときにオプション コンポーネントのインストールを選択すると、クラスタの作成中にダウンロードされてインストールされます。これにより、クラスタの起動時間が長くなる可能性があります。この遅延を回避するには、オプション コンポーネントがプリインストールされたカスタム イメージを作成します。これは、--optional-components フラグを指定して generate_custom_image.py を実行することで実現できます。

注:

  • 2.3 イメージのオプション コンポーネントは次のとおりです。

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab ノートブック
    • Ranger
    • Solr
    • Zeppelin ノートブック
    • Zookeeper
  • 2.3 イメージでは、yarn.nodemanager.recovery.enabled と HDFS 監査ロギングがデフォルトで有効になっています。

  • 以前のイメージ バージョンの conda ではなく、micromamba が Python のインストールの一部としてインストールされます。

  • Docker と Zeppelin のインストールに関する問題:

    • クラスタに公共のインターネット アクセスがない場合、インストールは失敗します。回避策として、オプション コンポーネントがプリインストールされたカスタム イメージを使用するクラスタを作成します。これを行うには、--optional-components フラグを指定して generate_custom_image.py を実行します。
    • クラスタが古いサブマイナー イメージ バージョンに固定されている場合、インストールが失敗する可能性があります。パッケージは公開 OSS リポジトリからオンデマンドでインストールされますが、インストールをサポートするパッケージがアップストリームで利用できない可能性があります。回避策として、カスタム イメージにオプション コンポーネントがプリインストールされたカスタム イメージを使用するクラスタを作成します。これを行うには、--optional-components フラグを指定して generate_custom_image.py を実行します。

イメージ バージョン 2.3 の ML コンポーネント

Dataproc 2.3-ml-ubuntu イメージは、ML 固有のソフトウェアで 2.3 ベースイメージを拡張します。2.3 イメージのオプション コンポーネントとその他の 2.3 機能がサポートされ、次のセクションに記載されているコンポーネント バージョンが追加されます。

GPU 固有のライブラリ

GPU VM を使用する Dataproc ジョブの場合、2.3-ml-ubuntu イメージで次の NVIDIA ドライバとライブラリを使用できます。これらを使用して、次のタスクを実行できます。

  • NVIDIA Spark Rapids ライブラリを使用して Spark バッチ ワークロードを高速化する
  • ML ワークロードをトレーニングする
  • Spark を使用して分散バッチ推論を実行する
パッケージ名 バージョン
Spark Rapids 25.04.0
NVIDIA ドライバ NVIDIA ドライバ バージョン 570 を搭載した Ubuntu 22.04 LTS Accelerated
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

XGBoost ライブラリ

次の Maven パッケージ バージョン2.3-ml-ubuntu イメージで使用できます。これにより、Java または Scala で Spark を使用して XGBoost を使用できます。

グループ ID パッケージ名 バージョン
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Python ライブラリ

2.3-ml-ubuntu イメージには、ML ライフサイクルのさまざまなステージをサポートする次のライブラリが含まれています。

2.3-ml-ubuntu イメージの Python ライブラリ
パッケージ バージョン
accelerate1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex2023.12.25
requests2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizers0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformers4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

R ライブラリ

2.3-ml-ubuntu イメージには、次の R ライブラリ バージョンが含まれています。

2.3-ml-ubuntu イメージの R ライブラリ
パッケージ名 バージョン
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3