Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
本页介绍了如何使用迁移脚本将 DAG、数据和配置从现有的 Cloud Composer 2 环境迁移到新的 Cloud Composer 3 环境。
其他迁移指南
发件人 | 收件人 | 方法 | 指南 |
---|---|---|---|
Cloud Composer 2 | Cloud Composer 3 | 并排,使用迁移脚本 | 本指南 |
Cloud Composer 2 | Cloud Composer 3 | 并排,使用快照 | 快照迁移指南 |
Cloud Composer 1、Airflow 2 | Cloud Composer 3 | 并排,使用快照 | 快照迁移指南 |
Cloud Composer 1、Airflow 2 | Cloud Composer 2 | 并排,使用快照 | 快照迁移指南 |
Cloud Composer 1、Airflow 2 | Cloud Composer 2 | 并排手动转移 | 手动迁移指南 |
Cloud Composer 1、Airflow 1 | Cloud Composer 2、Airflow 2 | 并排,使用快照 | 快照迁移指南 |
Cloud Composer 1、Airflow 1 | Cloud Composer 2、Airflow 2 | 并排手动转移 | 手动迁移指南 |
Cloud Composer 1、Airflow 1 | Cloud Composer 1、Airflow 2 | 并排手动转移 | 手动迁移指南 |
迁移脚本简介
迁移脚本是一种用于并行迁移的 Python 脚本,可自动执行从 Cloud Composer 2 到 Cloud Composer 3 的迁移过程。它使用环境快照将环境的配置转移到新环境。
该脚本会执行以下操作:
获取 Cloud Composer 2 环境的配置。
创建一个配置与所获取配置匹配的 Cloud Composer 3 环境。
由于 Cloud Composer 3 环境具有不同的架构,因此某些参数可能会进行调整以适应这些差异。您也可以稍后调整环境的大多数参数。
逐个暂停 Cloud Composer 2 环境中的所有 DAG。只有在 Cloud Composer 2 环境中取消暂停的 DAG 才会在稍后取消暂停。
保存源 Cloud Composer 2 环境的快照。快照会保存在快照的默认位置,即 Cloud Composer 2 环境的存储分区中。
将快照加载到 Cloud Composer 3 环境。
该脚本不会检查自定义 PyPI 软件包、环境变量和 Airflow 配置选项替换项与 Cloud Composer 3 环境的兼容性。
如果发生冲突,迁移会在创建 Cloud Composer 3 环境后,在加载快照的过程中失败。在这种情况下,您可以调整 Cloud Composer 2 环境的配置以解决冲突,也可以在不使用迁移脚本的情况下进行迁移,并在加载快照时跳过加载自定义 PyPI 软件包、环境变量或 Airflow 配置替换。
在 Cloud Composer 3 环境中取消暂停 DAG。如果某些 DAG 在您运行脚本之前已暂停,则会保持暂停状态。
该脚本具有以下限制:
该脚本始终会创建新的 Cloud Composer 3 环境。无法将快照加载到现有的 Cloud Composer 3 环境。为此,您可以使用快照进行迁移,而无需使用迁移脚本。
该脚本仅在与 Cloud Composer 2 环境相同的区域和项目中创建 Cloud Composer 3 环境。
您只能将快照加载到相同或更高版本的 Airflow。例如,您无法将快照从 Airflow 2.10.2 加载到 Airflow 2.9.3。
只有 Cloud Composer 2 环境可以使用迁移脚本进行迁移。
准备工作
由于迁移脚本会创建环境,然后保存和加载快照,因此迁移过程可能需要超过一小时的时间。
该脚本使用快照。支持快照
在 Cloud Composer 2 版本 2.0.9 及更高版本中。
您的账号需要具有IAM 角色,该角色可以创建环境、保存快照和加载快照。
支持快照的 Airflow 数据库的大小上限为 20 GB。如果环境的数据库占用空间超过 20 GB,请减小 Airflow 数据库的大小。
若要创建快照,环境存储分区中的
/dags
、/plugins
和/data
文件夹中的对象总数必须少于 10 万个。如果您使用 XCom 机制传输文件,请确保按照 Airflow 准则使用该机制。使用 XCom 传输大型文件或大量文件会影响 Airflow 数据库的性能,并可能会导致加载快照或升级环境时发生失败。考虑使用 Cloud Storage 等替代方案来传输大量数据。
迁移到 Cloud Composer 3
本部分介绍了使用迁移脚本进行迁移的过程。
查看 Cloud Composer 2 和 Cloud Composer 3 之间的差异
查看 Cloud Composer 2 和 Cloud Composer 3 之间的差异列表。
确保您的环境未使用 Cloud Composer 3 尚不提供的功能,并且您熟悉如何使用和配置 Cloud Composer 3 专用功能。
确保您的 DAG 与 Cloud Composer 3 兼容
请按照以下建议操作,确保您的 DAG 与 Cloud Composer 3 兼容:
Cloud Composer 3 环境中的软件包列表可能与 Cloud Composer 2 环境中的软件包列表不同。这可能会影响 DAG 与 Cloud Composer 3 的兼容性。
在 Cloud Composer 3 中,环境的集群位于租户项目中。请确保您的 DAG 与此更改兼容。具体而言,
KubernetesPodOperator
工作负载现在会独立于环境进行扩缩,并且无法使用 Pod 亲和性配置。
安装脚本的依赖项
该脚本需要 Python 3.8 及更高版本。
迁移脚本使用 gcloud CLI 和
curl
实用程序。确保您的计算机上安装了这两个实用程序。
下载脚本:
从 GitHub 上的代码库下载迁移脚本 (composer_migrate.py
)。
在 gcloud CLI 中授权
在 gcloud CLI 中授权:
gcloud auth login
预览新环境的参数
您可以在迁移之前预览 Cloud Composer 3 环境的参数。您可以通过此工具查看 Cloud Composer 2 环境的配置与 Cloud Composer 3 的配置之间的对应关系。
Airflow 配置选项替换项、自定义 PyPI 软件包和环境变量会从环境的快照加载,不会显示在预览中。
展开
运行以下命令:
python3 composer_migrate.py \
--project PROJECT_ID \
--location LOCATION \
--source_environment COMPOSER_2_ENV \
--target_environment COMPOSER_3_ENV \
--target_airflow_version COMPOSER_3_AIRFLOW_VERSION \
--dry_run
替换以下内容:
PROJECT_ID
:项目 ID。COMPOSER_2_ENV
:您的 Cloud Composer 2 环境的名称。LOCATION
:Cloud Composer 2 环境所在的区域。Cloud Composer 3 环境将在同一区域中创建。COMPOSER_3_AIRFLOW_VERSION
:Cloud Composer 3 环境的 Airflow 版本。此版本必须与 Cloud Composer 2 环境中的版本相同或更高,并且必须是 Cloud Composer 3 中提供的版本之一。
示例:
python3 composer_migrate.py \
--project example-project \
--location us-central1 \
--source_environment example-composer-2-environment \
--target_environment example-composer-3-environment \
--target_airflow_version 2.10.2
检查环境的运行状况
确保您要迁移的 Cloud Composer 2 环境处于正常运行状态。
如果您的环境状况不佳,则在创建新的 Cloud Composer 3 环境后,迁移流程将会失败,因为无法创建快照。
如需详细了解检查环境运行状况和数据库运行状况的方法,请参阅使用监控信息中心。
运行迁移脚本
运行以下命令:
python3 composer_migrate.py \
--project PROJECT_ID \
--location LOCATION \
--source_environment COMPOSER_2_ENV \
--target_environment COMPOSER_3_ENV \
--target_airflow_version COMPOSER_3_AIRFLOW_VERSION
替换以下内容:
PROJECT_ID
:项目 ID。COMPOSER_2_ENV
:您的 Cloud Composer 2 环境的名称。LOCATION
:Cloud Composer 2 环境所在的区域。Cloud Composer 3 环境将在同一区域中创建。COMPOSER_3_AIRFLOW_VERSION
:Cloud Composer 3 环境的 Airflow 版本。此版本必须与 Cloud Composer 2 环境中的版本相同或更高,并且必须是 Cloud Composer 3 中提供的版本之一。
检查 DAG 错误
在 Airflow 网页界面中,转到 DAG 并查看报告的 DAG 语法错误。
检查 DAG 运行是否安排在正确的时间。
等待 DAG 在 Cloud Composer 3 环境中运行并检查运行是否成功。如果 DAG 运行成功,请不要在 Cloud Composer 2 环境中取消暂停该 DAG。如果这样做,则 DAG 会在 Cloud Composer 2 环境中以相同的时间和日期运行。
如果特定 DAG 运行失败,请尝试对该 DAG 进行问题排查,直到它在 Cloud Composer 3 中成功运行为止。
监控 Cloud Composer 3 环境
监控 Cloud Composer 3 环境,了解是否存在潜在问题、DAG 运行失败情况以及环境整体运行状况。
如果 Cloud Composer 3 环境在足够长的时间内正常运行,请考虑删除 Cloud Composer 2 环境。