计算数据集的 δ-存在性

Delta-存在性(δ-存在性)是用于量化个体属于分析数据集的概率的指标。k-map 一样,您可以使用 Sensitive Data Protection 估算 δ-存在性值。Sensitive Data Protection 使用统计模型来估算攻击数据集

δ-存在性与其他明确知道攻击数据集的风险分析方法不同。根据数据类型,敏感数据保护功能会使用公开提供的数据集(例如美国人口普查数据集)或自定义统计模型(例如,您指定的一个或多个 BigQuery 表格),或者根据输入数据集中值的分布进行推断。

本主题演示了如何使用敏感数据保护功能计算数据集的 δ-存在性值。如需从整体上详细了解 δ-存在性或风险分析,请参阅风险分析概念主题,然后再继续。

准备工作

在继续操作之前,请确保您已完成以下步骤:

  1. 登录您的 Google 账号。
  2. 在 Google Cloud 控制台的“项目选择器”页面上,选择或创建一个 Google Cloud 项目。
  3. 转到项目选择器
  4. 确保您的 Google Cloud 项目已启用结算功能。 了解如何确认您的项目已启用结算功能
  5. 启用敏感数据保护。
  6. 启用敏感数据保护

  7. 选择要分析的 BigQuery 数据集。敏感数据保护通过扫描 BigQuery 表格来估算 δ-存在性指标
  8. 确定您要用于攻击数据集建模的数据集类型。如需了解详情,请参阅 DeltaPresenceEstimationConfig 对象的参考页面以及风险分析术语和技术

计算 δ-存在性指标

如需使用敏感数据保护功能计算 δ-存在性估算值,请向以下网址发送一个请求,其中 PROJECT_ID 表示项目标识符

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

该请求包含一个由以下项组成的 RiskAnalysisJobConfig 对象:

  • PrivacyMetric 对象。您可以在此处指定包含以下内容的 DeltaPresenceEstimationConfig 对象以表明您要计算 δ-存在性:

    • quasiIds[]:必填。被视为要扫描的准标识符的字段(QuasiId 对象),用于计算 δ-存在性。任何两列的标记都不能相同。这些标记可为下列任一项:

      • infoType:这会使敏感数据保护功能使用相关的公共数据集作为人口统计模型,包括美国邮政编码、区域代码、年龄和性别。
      • 自定义 infoType:自定义标记,用于指示包含有关此列的可能值的统计信息的辅助表(AuxiliaryTable 对象)。
      • inferred 标记:如果未指示语义标记,请指定 inferred。Sensitive Data Protection 会根据输入数据中值的分布推断统计模型。
    • regionCode:Sensitive Data Protection 要在统计建模中使用的 ISO 3166-1 alpha-2 区域代码。如果未使用区域专属 infoType(如美国邮政编码)或区域代码标记列,则此值是必需的。

    • auxiliaryTables[]:用于分析的辅助表(StatisticalTable 对象)。用于标记准标识符列的每个自定义标记(来自 quasiIds[])都必须恰好出现在一个辅助表的一列中。

  • BigQueryTable 对象。通过包括以下所有项指定要扫描的 BigQuery 表格:

    • projectId:表格所属项目的 ID。
    • datasetId:表格的数据集 ID。
    • tableId:表格的名称。
  • 由一个或多个 Action 对象组成的对象集,这些对象表示在作业完成时要按给定顺序运行的操作。每个 Action 对象都可以包含以下操作之一:

查看 δ-存在性作业结果

如需使用 REST API 检索 δ-存在性风险分析作业,请将以下 GET 请求发送到 projects.dlpJobs 资源。将 PROJECT_ID 替换为您的项目 ID,并将 JOB_ID 替换为您要获取其结果的作业的标识符。作业 ID 在启动作业时返回,也可通过列出所有作业来检索。

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

该请求会返回包含作业实例的 JSON 对象。分析的结果位于 AnalyzeDataSourceRiskDetails 对象的 "riskDetails" 键中。如需了解详情,请参阅 DlpJob 资源的 API 参考文档。

后续步骤

  • 了解如何计算数据集的 k-匿名性值。
  • 了解如何计算数据集的 l-多样性
  • 了解如何计算数据集的 k-图值。