安排数据准备
本文档介绍了如何安排数据准备流水线并执行手动运行。
数据准备由 Dataform 提供支持。每个数据准备时间表都使用您的 Google 账号用户凭证或是您在配置时间表或测试运行时选择的 Dataform 服务账号运行。
您对数据准备步骤所做的更改不会自动保存。您必须先保存并部署更改,然后才能按时间表执行它们。时间表始终运行数据准备的最新部署版本,并排除您可能正在开发的任何未部署的更改。
准备工作
在开始之前,请先创建数据准备。
所需的角色
如需在手动运行开发环境中的数据准备或安排数据准备时使用服务账号授权数据准备,您必须向计划用于执行数据准备运行的服务服务账号授予相应角色。如需了解详情,请参阅授予对 Dataform 服务账号的访问权限。
开发数据准备
在开发数据准备时,您可以在将更改部署到生产环境之前,手动运行步骤并检查输出。您可以对您的数据测试您正在开发的当前版本,而 BigQuery 会继续根据时间表运行最新部署版本。您必须先配置目标位置并修正所有验证错误,然后才能执行运行。
在开发环境中手动运行数据准备
如需测试数据准备步骤并验证目标表中的结果,请从数据准备编辑器中手动运行数据准备:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和数据准备文件夹。点击要运行的数据准备的名称。
在数据准备编辑器工具栏中,依次点击更多 > 配置“立即运行”体验。
在身份验证部分,使用您的 Google 账号用户凭证或服务账号向数据准备授权。
- 如需使用您的 Google 账号用户凭证(预览版),请选择使用我的用户凭证执行。这是默认选项。
- 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。如果服务账号需要其他权限,请点击全部授予以向其授予所需的角色。
点击保存。
修正出现的所有验证错误。
在数据准备编辑器工具栏中,点击运行。
在立即运行对话框中,点击确认以确认此手动运行会将数据写入目标表,您可能也会将其用于安排的运行。
如果您选择了使用我的用户凭证执行作为身份验证方法,则必须授权您的 Google 账号(预览版)。
运行随后会执行您的步骤并将输出加载到目标位置。
可选:运行完成后,您可以在执行窗格中查看有关执行的详细信息。
部署数据准备
如需为数据准备的某个版本安排运行,您必须先部署该版本。时间表会运行最近部署版本。
如需部署数据准备,请按以下步骤操作:
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和数据准备文件夹。点击所选数据准备的名称。
系统随即会打开数据准备编辑器。
在数据准备编辑器工具栏中,点击部署。
创建时间表
如需创建时间表以执行所部署的数据准备步骤并将准备好的数据加载到目标表中,您必须先安排数据准备运行。如需安排运行,您必须配置目标位置并修正所有验证错误。
如需创建数据准备时间表,请按以下步骤操作:
探索器窗格
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和数据准备文件夹。点击要安排的数据准备的名称。
在数据准备编辑器工具栏中,点击时间安排。
输入时间表名称。
在身份验证部分,使用您的 Google 账号用户凭证或服务账号向数据准备授权。
- 如需使用您的 Google 账号用户凭证(预览版),请选择使用我的用户凭证执行。
- 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。
设置频率。
点击创建时间表。 如果您选择了使用我的用户凭证执行作为身份验证方法,则必须授权您的 Google 账号(预览版)。
时间安排页面
在 Google Cloud 控制台中,前往时间安排页面。
点击创建,然后从菜单中选择数据准备时间表。
在安排数据准备窗格中的数据准备字段中,选择要安排的数据准备。
在时间表名称字段中,输入时间表的名称。
在身份验证部分,使用您的 Google 账号用户凭证或服务账号向数据准备授权。
- 如需使用您的 Google 账号用户凭证(预览版),请选择使用我的用户凭证执行。
- 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。
在时间表频率部分中,执行以下操作:
- 在重复频率菜单中,选择数据准备运行的频率。
- 在时间字段中,为安排的数据准备运行输入时间。
- 在时区菜单中,选择时间表的时区。
点击创建时间表。 如果您选择了使用我的用户凭证执行作为身份验证方法,则必须授权您的 Google 账号(预览版)。
授权您的 Google 账号
如需使用您的 Google 账号用户凭证向资源进行身份验证,您必须手动向 BigQuery 流水线授予权限,以便其获取您的 Google 账号的访问令牌并代表您访问源数据。您可以通过 OAuth 对话框界面手动进行批准。
您只需向 BigQuery 流水线授予一次权限。
如需撤销您已授予的权限,请按以下步骤操作:
- 前往您的“Google 账号”页面。
- 点击 BigQuery 流水线。
- 点击解除使用权限。
通过更新凭证来更改数据准备时间表所有者时,如果新的 Google 账号所有者之前从未创建过时间表,则也需要手动批准。
手动运行已安排的数据准备
如果您手动运行所选时间表中的某个数据准备,BigQuery 会独立于时间表执行一次数据准备。
如需手动运行已安排的数据准备,请按以下步骤操作:
在 Google Cloud 控制台中,前往时间安排页面。
点击所选数据准备时间表的名称。
在时间表详情页面上,点击运行。
查看日程
您可以在数据准备编辑器或时间安排页面中查看数据准备时间表。
数据准备编辑器
如需查看数据准备的时间表,请按以下步骤操作:
- 在数据准备编辑器工具栏中,点击时间表查看时间表。
- 可选:如需查看时间表历史记录,请点击查看过往的执行情况。
时间安排页面
如需查看项目中的所有数据准备时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往时间安排页面。
可选:如需查看所选时间表的运行历史记录和详细信息,请点击相应时间表的名称。系统不会显示手动运行的历史记录。
修改时间表
您可以在数据准备编辑器或时间安排页面中修改时间表。
数据准备编辑器
如需修改时间表,请按以下步骤操作:
- 在数据准备编辑器工具栏中,点击时间表查看时间表。
- 在安排数据准备对话框中,点击修改,然后更新时间表。
- 点击更新时间表。
时间安排页面
如需修改时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往时间安排页面。
点击所选数据准备时间表的名称。
在时间表详情页面上,点击修改。
点击查看时间表。
在安排数据准备对话框中,点击修改,然后更新时间表。
点击更新时间表。
删除时间表
如需永久删除所选数据准备的时间表,请按以下步骤操作:
在 Google Cloud 控制台中,前往时间安排页面。
在包含时间表的行中,依次点击 more_vert 操作 > 删除。