创建流水线
本文档介绍了如何在 BigQuery 中创建数据流水线。流水线由 Dataform 提供支持。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
- 按照启用代码资产管理中的说明保存、共享和管理代码资产(例如流水线)的各个版本。
- 如果这是您第一次创建代码资产,请设置用于存储代码资产的默认区域。代码资源创建后,便无法更改该区域。
流水线所需的角色
如需获得创建流水线所需的权限,请让管理员向您授予项目的以下 IAM 角色:
-
创建流水线:Code Creator (
roles/dataform.codeCreator
) -
修改和运行流水线:Dataform Editor (
roles/dataform.editor
)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限。
笔记本选项所需的角色
如需获得在笔记本选项中选择运行时模板所需的权限,请让您的管理员为您授予项目的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如果您没有此角色,则可以选择默认的笔记本运行时规范。
创建流水线
如需创建数据流水线,请按以下步骤操作:
转到 BigQuery 页面。
在编辑器窗格的标签页栏中,点击 + 号旁边的
箭头,然后点击流水线。可选:如需重命名流水线,请点击流水线名称,然后输入新名称。
点击开始,然后前往设置标签页。
在服务账号字段中,选择一个 Dataform 服务账号。
在位置部分,为流水线选择处理区域。
- 如需选择特定区域,请选择区域,然后在区域菜单中选择相应区域。
- 如需选择多区域位置,请选择多区域,然后在多区域菜单中选择相应多区域位置。
流水线处理区域无需与代码资产的默认存储区域相匹配。
笔记本选项
如果您打算将笔记本添加到流水线中,请在笔记本选项部分中执行以下操作:
在“运行时模板”字段中,接受默认的笔记本运行时,或搜索并选择现有运行时。
- 如需查看默认运行时的规范,请点击相邻的箭头。
- 如需创建新运行时,请参阅创建运行时模板。
在 Cloud Storage 存储分区字段中,点击浏览,然后选择或创建一个 Cloud Storage 存储分区,用于在流水线中存储笔记本的输出。
请按照将主账号添加到存储分区级层政策中中的说明,将您的自定义 Dataform 服务账号作为主账号添加到您计划用于存储预定流水线运行输出的 Cloud Storage 存储分区,并向此主账号授予 Storage Admin (
roles/storage.admin
) 角色。所选的自定义 Dataform 服务账号必须在所选存储桶中获得 Storage Admin IAM 角色。
添加流水线任务
如需将任务添加到流水线,请按以下步骤操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
如需添加代码资产(例如 SQL 查询、笔记本或数据准备),请执行以下操作:
SQL 查询
点击添加任务,然后选择查询。 您可以创建新的查询,也可以导入现有查询。
可选:在 Query task details(查询任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在查询之前运行的任务。
您的查询会取决于前置任务。
创建新查询
点击修改查询旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有查询。
选择一个查询名称,然后按 Enter 键。
点击保存。
可选:如需重命名查询,请点击“Pipeline”窗格中的查询名称,点击修改查询,点击屏幕顶部的现有查询名称,然后输入新名称。
导入现有查询
点击修改查询旁边的
箭头菜单,然后点击导入副本。搜索要导入的现有查询,或从搜索窗格中选择现有查询。导入查询后,原始查询会保持不变,因为查询的源文件会复制到流水线中。
点击修改以打开导入的查询。
点击保存。
笔记本
点击添加任务,然后选择笔记本。 您可以创建新记事,也可以导入现有记事。 如需更改笔记本运行时模板的设置,请参阅笔记本选项。
可选:在 Notebook task details(笔记本任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在笔记本之前运行的任务。
您的笔记本会取决于前置任务。
创建新笔记本
点击修改记事本旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有笔记本。
选择一个记事本名称,然后按 Enter 键。
点击保存。
可选:如需重命名笔记本,请点击“Pipeline”窗格中的笔记本名称,点击修改笔记本,点击屏幕顶部的现有笔记本名称,然后输入新名称。
导入现有笔记本
点击修改笔记本旁边的
箭头菜单,然后点击导入副本。搜索要导入的现有笔记本,或从搜索窗格中选择现有笔记本。导入笔记本后,原始笔记本会保持不变,因为笔记本的源文件会复制到流水线中。
如需打开导入的记事本,请点击修改。
点击保存。
数据准备
点击添加任务,然后选择数据准备。您可以创建新的准备数据流程,也可以导入现有准备数据流程。
可选:在 Data preparation task details(数据准备任务详情)窗格中的 Run after(在完成以下哪一项操作以后运行)菜单中,选择将在数据准备之前运行的任务。
您的数据准备工作将取决于前置任务。
创建新的准备数据流程
点击修改数据准备旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有的数据准备。
选择数据准备名称,然后按 Enter 键。
点击保存。
可选:如需重命名数据准备步骤,请点击“流水线”窗格中的数据准备步骤名称,点击修改数据准备步骤,点击屏幕顶部的名称,然后输入新名称。
导入现有的数据准备
点击修改数据准备旁边的
箭头下拉菜单,然后点击导入副本。搜索要导入的现有数据准备,或从搜索窗格中选择现有数据准备。导入数据准备流程后,原始数据准备流程保持不变,因为数据准备流程的源文件会复制到流水线中。
如需打开导入的数据准备,请点击修改。
点击保存。
修改流水线任务
如需修改流水线任务,请按以下步骤操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击所选任务。
如需更改前置任务,请在在完成以下哪一项操作以后运行菜单中,选择将在查询或笔记本之前运行的任务。
如需修改所选任务的内容,请点击修改。
在打开的新标签页中,修改任务内容,然后保存对任务的更改。
删除流水线任务
如需从流水线中删除任务,请按以下步骤操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击所选任务。
在任务详情窗格中,点击删除删除图标。
共享流水线
如需共享流水线,请按以下步骤操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击共享,然后选择管理权限。
点击添加用户/群组。
在新的主账号字段中,输入至少一个用户或群组的名称。
在分配角色部分,选择一个角色。
点击保存。
分享流水线链接
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击共享,然后选择分享链接。系统会将您的流水线的网址复制到计算机的剪贴板。
运行流水线
如需手动运行流水线的当前版本,请按以下步骤操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击运行。
可选:如需检查运行情况,请查看过去的手动运行情况。
后续步骤
- 详细了解 BigQuery 流水线。
- 了解如何管理流水线。
- 了解如何安排流水线。