创建流水线

本文档介绍了如何在 BigQuery 中创建数据流水线。流水线由 Dataform 提供支持。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. 按照启用代码资产管理中的说明保存、共享和管理代码资产(例如流水线)的各个版本。
  9. 如果这是您第一次创建代码资产,请设置用于存储代码资产的默认区域。代码资源创建后,便无法更改该区域。

流水线所需的角色

如需获得创建流水线所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限

笔记本选项所需的角色

如需获得在笔记本选项中选择运行时模板所需的权限,请让您的管理员为您授予项目的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如果您没有此角色,则可以选择默认的笔记本运行时规范。

创建流水线

如需创建数据流水线,请按以下步骤操作:

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 在编辑器窗格的标签页栏中,点击 + 号旁边的 箭头,然后点击流水线

  3. 可选:如需重命名流水线,请点击流水线名称,然后输入新名称。

  4. 点击开始,然后前往设置标签页。

  5. 服务账号字段中,选择一个 Dataform 服务账号。

  6. 位置部分,为流水线选择处理区域。

    1. 如需选择特定区域,请选择区域,然后在区域菜单中选择相应区域。
    2. 如需选择多区域位置,请选择多区域,然后在多区域菜单中选择相应多区域位置。

    流水线处理区域无需与代码资产的默认存储区域相匹配。

笔记本选项

  1. 如果您打算将笔记本添加到流水线中,请在笔记本选项部分中执行以下操作:

    1. “运行时模板”字段中,接受默认的笔记本运行时,或搜索并选择现有运行时。

      • 如需查看默认运行时的规范,请点击相邻的箭头。
      • 如需创建新运行时,请参阅创建运行时模板
    2. Cloud Storage 存储分区字段中,点击浏览,然后选择或创建一个 Cloud Storage 存储分区,用于在流水线中存储笔记本的输出。

    3. 请按照将主账号添加到存储分区级层政策中中的说明,将您的自定义 Dataform 服务账号作为主账号添加到您计划用于存储预定流水线运行输出的 Cloud Storage 存储分区,并向此主账号授予 Storage Admin (roles/storage.admin) 角色。

      所选的自定义 Dataform 服务账号必须在所选存储桶中获得 Storage Admin IAM 角色。

添加流水线任务

如需将任务添加到流水线,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 如需添加代码资产(例如 SQL 查询、笔记本或数据准备),请执行以下操作:

    SQL 查询

    1. 点击添加任务,然后选择查询。 您可以创建新的查询,也可以导入现有查询。

    2. 可选:在 Query task details(查询任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在查询之前运行的任务。

      您的查询会取决于前置任务。

    创建新查询

    1. 点击修改查询旁边的 箭头菜单,然后选择在上下文中在新标签页中

    2. 搜索现有查询。

    3. 选择一个查询名称,然后按 Enter 键。

    4. 点击保存

    5. 可选:如需重命名查询,请点击“Pipeline”窗格中的查询名称,点击修改查询,点击屏幕顶部的现有查询名称,然后输入新名称。

    导入现有查询

    1. 点击修改查询旁边的 箭头菜单,然后点击导入副本

    2. 搜索要导入的现有查询,或从搜索窗格中选择现有查询。导入查询后,原始查询会保持不变,因为查询的源文件会复制到流水线中。

    3. 点击修改以打开导入的查询。

    4. 点击保存

    笔记本

    1. 点击添加任务,然后选择笔记本。 您可以创建新记事,也可以导入现有记事。 如需更改笔记本运行时模板的设置,请参阅笔记本选项

    2. 可选:在 Notebook task details(笔记本任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在笔记本之前运行的任务。

      您的笔记本会取决于前置任务。

    创建新笔记本

    1. 点击修改记事本旁边的 箭头菜单,然后选择在上下文中在新标签页中

    2. 搜索现有笔记本。

    3. 选择一个记事本名称,然后按 Enter 键。

    4. 点击保存

    5. 可选:如需重命名笔记本,请点击“Pipeline”窗格中的笔记本名称,点击修改笔记本,点击屏幕顶部的现有笔记本名称,然后输入新名称。

    导入现有笔记本

    1. 点击修改笔记本旁边的 箭头菜单,然后点击导入副本

    2. 搜索要导入的现有笔记本,或从搜索窗格中选择现有笔记本。导入笔记本后,原始笔记本会保持不变,因为笔记本的源文件会复制到流水线中。

    3. 如需打开导入的记事本,请点击修改

    4. 点击保存

    数据准备

    1. 点击添加任务,然后选择数据准备。您可以创建新的准备数据流程,也可以导入现有准备数据流程。

    2. 可选:在 Data preparation task details(数据准备任务详情)窗格中的 Run after(在完成以下哪一项操作以后运行)菜单中,选择将在数据准备之前运行的任务。

      您的数据准备工作将取决于前置任务。

    创建新的准备数据流程

    1. 点击修改数据准备旁边的 箭头菜单,然后选择在上下文中在新标签页中

    2. 搜索现有的数据准备。

    3. 选择数据准备名称,然后按 Enter 键。

    4. 点击保存

    5. 可选:如需重命名数据准备步骤,请点击“流水线”窗格中的数据准备步骤名称,点击修改数据准备步骤,点击屏幕顶部的名称,然后输入新名称。

    导入现有的数据准备

    1. 点击修改数据准备旁边的 箭头下拉菜单,然后点击导入副本

    2. 搜索要导入的现有数据准备,或从搜索窗格中选择现有数据准备。导入数据准备流程后,原始数据准备流程保持不变,因为数据准备流程的源文件会复制到流水线中。

    3. 如需打开导入的数据准备,请点击修改

    4. 点击保存

修改流水线任务

如需修改流水线任务,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击所选任务。

  4. 如需更改前置任务,请在在完成以下哪一项操作以后运行菜单中,选择将在查询或笔记本之前运行的任务。

  5. 如需修改所选任务的内容,请点击修改

  6. 在打开的新标签页中,修改任务内容,然后保存对任务的更改。

删除流水线任务

如需从流水线中删除任务,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击所选任务。

  4. 任务详情窗格中,点击删除删除图标。

共享流水线

如需共享流水线,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击共享,然后选择管理权限

  4. 点击添加用户/群组

  5. 新的主账号字段中,输入至少一个用户或群组的名称。

  6. 分配角色部分,选择一个角色。

  7. 点击保存

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击共享,然后选择分享链接。系统会将您的流水线的网址复制到计算机的剪贴板。

运行流水线

如需手动运行流水线的当前版本,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,转到 BigQuery 页面。

    转到 BigQuery

  2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

  3. 点击运行

  4. 可选:如需检查运行情况,请查看过去的手动运行情况

后续步骤