2.3 版的重要異動:
版本
2.3
是輕量型映像檔,只包含核心元件,可減少常見安全漏洞與弱點 (CVE) 的影響。如要符合更高的安全法規要求,請在建立 Dataproc 叢集時,使用2.3
以上版本的映像檔。如果您選擇在建立
2.3
映像檔的 Dataproc 叢集時安裝選用元件,系統會在叢集建立期間下載並安裝這些元件。這可能會增加叢集啟動時間。如要避免這種延遲,您可以建立預先安裝選用元件的自訂映像檔。如要達成這個目標,請使用--optional-components
旗標執行generate_custom_image.py
。
注意:
2.3 映像檔的選用元件如下:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab 筆記本
- Ranger
- Solr
- Zeppelin Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled
和 HDFS 稽核記錄在 2.3 版映像檔中預設為啟用。在先前的映像檔版本中,conda 是 Python 安裝程序的一部分,但現在改為安裝 micromamba。
Docker 和 Zeppelin 安裝問題:
- 如果叢集無法存取公開網際網路,安裝就會失敗。如要解決這個問題,請建立叢集,並使用預先安裝選用元件的自訂映像檔。方法是執行
generate_custom_image.py
並使用--optional-components
旗標。 - 如果叢集固定使用較舊的次要映像檔版本,安裝作業可能會失敗:系統會從公開 OSS 存放區視需要安裝套件,而上游可能沒有支援安裝作業的套件。如要解決這個問題,請建立叢集,並使用已預先安裝選用元件的自訂映像檔。如要這麼做,請使用
--optional-components
旗標執行generate_custom_image.py
。
- 如果叢集無法存取公開網際網路,安裝就會失敗。如要解決這個問題,請建立叢集,並使用預先安裝選用元件的自訂映像檔。方法是執行