作业是指敏感数据保护功能为扫描内容中的敏感数据或计算重标识的风险而执行的操作。 只要让 Sensitive Data Protection 检查您的数据,它就会创建并运行作业资源。
目前有两种类型的敏感数据保护作业:
- 检查作业 - 根据您的标准检查内容中的敏感数据,并生成有关敏感数据的位置和类型的摘要报告。
- 风险分析作业 - 对已经去标识化的数据进行分析,返回有关数据重标识可能性的指标。
您可以通过创建作业触发器来安排 Sensitive Data Protection 运行作业的时间。作业触发器是一种会自动创建敏感数据保护作业来扫描 Cloud Storage 存储分区、BigQuery 表和 Datastore 种类等 Google Cloud 存储区的事件。
利用作业触发器,您可以通过设置每个触发器关闭的时间间隔来安排扫描作业。作业触发器可以配置为查找自上次扫描运行以来的新发现结果,以帮助监控内容的更改或添加,或生成最新的发现结果报告。安排好的触发器会按您设置的间隔(从 1 天到 60 天)运行。
后续步骤
如需详细了解如何创建、修改以及运行作业和作业触发器,请参阅下列主题:
- 创建敏感数据保护检查作业和作业触发器
- 衡量重标识和披露风险(涵盖风险分析作业)
此外,您也可以参考下列快速入门指南:
JobTrigger
对象
在 DLP API 中,作业触发器用 JobTrigger
对象来表示。
作业触发器配置字段
每个 JobTrigger
都包含多个配置字段,包括:
- 触发器的名称、显示名称和说明。
- 一系列
Trigger
对象,每个对象都包含一个Schedule
对象,用于定义扫描周期(以秒为单位)。 InspectJobConfig
对象,包含已触发作业的配置信息。Status
枚举,指示触发器当前是否处于活动状态。- 表示创建、更新和上次运行时间的时间戳字段。
- 一系列
Error
对象(如果在激活触发器时遇到过任何此类对象)。
作业触发器方法
每个 JobTrigger
对象还包括几种内置方法。使用这些方法,您可以执行以下操作:
- 创建新的作业触发器:
projects.jobTriggers.create
- 更新现有作业触发器:
projects.jobTriggers.patch
- 删除现有作业触发器:
projects.jobTriggers.delete
- 检索现有作业触发器,包括其配置和状态:
projects.jobTriggers.get
- 列出所有现有作业触发器:
projects.jobTriggers.list
作业延迟时间
我们不保证作业和作业触发器的服务等级目标 (SLO)。延迟时间受多种因素影响,包括要扫描的数据量、要扫描的存储区、要扫描的 infoType 的类型和数量、作业处理所在的区域以及该区域可用的计算资源。因此,无法预先确定检查作业的延迟时间。
如需帮助减少作业延迟时间,您可以尝试以下方法:
- 如果您的作业或作业触发器支持抽样,请启用该功能。
避免启用不需要的 infoType。虽然以下信息类型在某些情况下很有用,但与不包含这些信息类型的请求相比,包含这些信息类型的请求的运行速度可能会慢得多:
PERSON_NAME
FEMALE_NAME
MALE_NAME
FIRST_NAME
LAST_NAME
DATE_OF_BIRTH
LOCATION
STREET_ADDRESS
ORGANIZATION_NAME
始终明确指定 infoType。请勿使用空的 infoType 列表。
如果可能,请使用其他处理区域。
如果在尝试这些方法后作业仍存在延迟问题,请考虑使用 content.inspect
或 content.deidentify
请求,而不是作业。这些方法受服务等级协议的约束。如需了解详情,请参阅敏感数据保护服务等级协议。
仅扫描新内容
您可以配置作业触发器,以自动为存储在 Cloud Storage 或 BigQuery 中的文件设置时间范围日期。将 TimespanConfig
对象设置为自动填充后,敏感数据保护功能将仅扫描自上次触发器运行以来添加或修改的数据:
...
timespan_config {
enable_auto_population_of_timespan_config: true
}
...
对于 BigQuery 检查,只有至少已存在三个小时的行才会包含在扫描范围内。请参阅与此操作相关的已知问题。
在文件上传时触发作业
除了支持敏感数据保护中内置的作业触发器之外,Google Cloud 还具有可用于集成或触发敏感数据保护作业的其他多种组件。例如,每次将文件上传到 Cloud Storage 时,您都可以使用 Cloud Run 函数触发敏感数据保护扫描。
如需了解如何设置此操作,请参阅对上传到 Cloud Storage 的数据进行自动分类。