本快速入门将指导您安装Google Cloud Pipeline Components (GCPC) SDK。
安装最新版本
使用以下命令从 Python Package Index (PyPI) 安装 Google Cloud SDK:
pip install --upgrade google-cloud-pipeline-components
使用 Google Cloud SDK 导入预构建组件
安装 Google Cloud SDK 后,就可以使用它导入预构建组件。
如需了解受支持组件的 SDK 参考信息,请参阅 Google Cloud SDK 文档。
例如,您可以使用以下代码在流水线中导入和使用 Dataflow 组件。
from google_cloud_pipeline_components.v1.dataflow import DataflowPythonJobOp
from kfp import dsl
@dsl.pipeline(
name=PIPELINE_NAME,
description='Dataflow launch python pipeline'
)
def pipeline(
python_file_path:str = 'gs://ml-pipeline-playground/samples/dataflow/wc/wc.py',
project_id:str = PROJECT_ID,
location:str = LOCATION,
staging_dir:str = PIPELINE_ROOT,
requirements_file_path:str = 'gs://ml-pipeline-playground/samples/dataflow/wc/requirements.txt',
):
dataflow_python_op = DataflowPythonJobOp(
project=project_id,
location=location,
python_module_path=python_file_path,
temp_location = staging_dir,
requirements_file_path = requirements_file_path,
args = ['--output', OUTPUT_FILE],
)
后续步骤
- 阅读流水线组件简介。 Google Cloud
- 查看所有使用
google_cloud_pipeline_components
SDK 的教程。 - 开始使用 Dataflow 组件。