适用于数据分析、AI 和联邦学习的机密计算

Last reviewed 2024-12-20 UTC

本文档简要介绍了保密计算,包括如何使用它来实现安全的数据协作、AI 模型训练和联邦学习。本文档还提供了有关Google Cloud 中机密计算服务的信息,以及针对不同使用情形的架构参考。

本文档旨在帮助技术主管了解在金融服务和医疗保健等各个行业中,将保密计算与生成式 AI 和应用 AI 相结合所带来的业务潜力。

什么是机密计算?

传统的数据安全实践主要侧重于通过加密来保护静态数据和传输中的数据。机密计算通过解决数据在活跃使用期间的漏洞,增添了一层新的保护。这项技术可确保敏感信息在处理过程中保持机密性,从而有助于弥合数据安全方面的一个关键缺口。

机密计算环境通过基于硬件的可信执行环境 (TEE) 来实现对使用中的数据的保护。TEE 是处理器中的安全区域,可保护加载到其中的代码和数据的机密性和完整性。TEE 充当敏感操作的安全室,即使系统遭到入侵,也能降低数据风险。借助机密计算,数据在处理期间可以保持内存加密状态。

例如,您可以将保密计算用于数据分析和机器学习,以帮助实现以下目标:

  • 增强隐私保护:对敏感数据集(例如医疗记录或财务数据)执行分析,而不会将数据暴露给底层基础架构或参与计算的各方。
  • 安全协作:联合训练机器学习模型,或对多方合并的数据集执行分析,而不会向彼此透露个人数据。机密计算有助于建立信任,并能开发出更强大、更通用的模型,尤其是在医疗保健和金融等领域。
  • 提高数据安全性:降低数据泄露和未经授权的访问风险,确保符合数据保护法规,例如《一般数据保护条例》(GDPR) 或《健康保险流通与责任法案》(HIPAA)。
  • 提高信任度和透明度:提供可验证的证明,表明计算是在预期的数据上且在安全的环境中执行的,从而提高利益相关者之间的信任度。

机密计算环境的运作方式

保密计算环境具有以下属性:

  • 运行时加密:处理器会使所有机密计算环境数据在内存中保持加密状态。任何试图直接从内存读取保密计算环境数据的系统组件或硬件攻击者都只能看到加密数据。同样,加密可防止通过直接访问内存来修改机密计算环境数据。
  • 隔离:处理器会阻止基于软件的对机密计算环境的访问。操作系统和其他应用只能通过特定接口与保密计算环境通信。
  • 认证:在机密计算的背景下,认证用于验证机密计算环境的可信度。借助证明,用户可以查看机密计算技术正在保护其数据的证据,因为证明可让您对 TEE 实例进行身份验证。

    在证明过程中,支持 TEE 的 CPU 芯片会生成实例衡量结果的加密签名报告(称为证明报告)。然后,将衡量结果发送到证明服务。进程隔离证明用于对应用进行身份验证。虚拟机隔离证明用于验证虚拟机、用于启动虚拟机的虚拟固件或两者。

  • 数据生命周期安全性:机密计算可创建安全的处理环境,为使用中的数据提供硬件支持的保护。

机密计算技术

以下技术可实现机密计算:

  • 安全飞地,也称为基于应用的机密计算
  • 机密虚拟机和 GPU,也称为基于虚拟机的机密计算

Google Cloud 使用机密虚拟机来实现机密计算。如需了解详情,请参阅在Google Cloud上实现机密计算

安全 Enclave

安全可信区是一种计算环境,它使用基于硬件的隔离来隔离操作系统中的代码和数据,或者通过将虚拟机监控程序置于可信计算基 (TCB) 内来隔离整个虚拟机。安全飞地旨在确保即使是拥有对机器和操作系统进行物理或 root 访问权限的用户,也无法了解安全飞地内存的内容或篡改飞地内代码的执行。安全隔区的一个示例是 Intel Software Guard Extension (SGX)。

机密虚拟机和机密 GPU

机密虚拟机是一种使用基于硬件的内存加密来帮助保护数据和应用的虚拟机。机密虚拟机提供隔离和证明功能,以提高安全性。机密虚拟机计算技术包括 AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE 和 Nvidia 机密 GPU。

保密 GPU 有助于保护数据并加快计算速度,尤其是在云环境和共享环境中。它们使用基于硬件的加密和隔离技术来帮助保护在 GPU 上处理的数据,确保即使是云提供商或恶意方也无法访问敏感信息。

机密数据分析、AI 和联邦学习用例

以下部分提供了各个行业的保密计算用例示例。

医疗保健和生命科学

机密计算可在组织间实现安全的数据共享和分析,同时保护患者隐私。借助保密计算,医疗保健组织可以参与协作研究、疾病建模、药物发现和个性化治疗方案。

下表介绍了医疗保健行业中保密计算的一些示例用途。

使用场景 说明

疾病预测和早期检测

医院训练联邦学习模型,以从医学影像数据(例如,多个医院或医院区域的 MRI 扫描或 CT 扫描)中检测癌性病变,同时维护患者的机密信息。

实时患者监测

医疗保健服务提供方会分析穿戴式健康设备和移动健康应用中的数据,以便进行实时监控和提醒。例如,穿戴式设备会收集血糖水平、身体活动和饮食习惯方面的数据,以便提供个性化建议,并在血糖波动时发出预警。

协作式药物研发

制药公司基于专有数据集训练模型,以加速药物发现,在加强协作的同时保护知识产权。

金融服务

借助机密计算,金融机构可以打造更安全、更具弹性的金融系统。

下表介绍了金融服务中保密计算的一些示例用途。

使用场景 说明

金融犯罪

金融机构可以共享可疑交易信息,同时保护客户隐私,从而在反洗钱 (AML) 或一般欺诈模型方面开展协作。借助保密计算,金融机构可以安全地分析这些共享数据,并训练模型来更有效地识别和破坏复杂的洗钱计划。

可保护隐私的信用风险评估

放款方可以使用更广泛的数据源(包括其他金融机构甚至非金融实体的数据)来评估信用风险。借助机密计算,贷款机构可以访问和分析这些数据,而不会将其暴露给未经授权的方,从而在维护数据隐私的同时提高信用评分模型的准确性。

可保护隐私的价格发现

在金融领域,尤其是在场外市场或非流动性资产等领域,准确的定价至关重要。借助保密计算,多家机构可以协作计算出准确的价格,而无需相互透露敏感数据。

公共部门

借助机密计算,政府可以创建更透明、更高效、更有效的服务,同时保留对其数据的控制权和主权。

下表介绍了公共部门中机密计算的一些示例用途。

使用场景 说明

数字主权

机密计算可确保数据始终处于加密状态,即使在处理过程中也是如此。它支持公民数据安全迁移到云端,即使数据托管在外部基础设施上,也能在混合云、公有云或多云环境中受到保护。机密计算支持并赋能数字主权和数字自主权,为使用中的数据提供额外的数据控制和保护,使云提供商无法访问加密密钥。

多机构机密分析

保密计算支持多个政府机构(例如卫生、税务和教育)之间或不同区域或国家的多个政府之间进行多方数据分析。保密计算有助于确保信任边界和数据隐私权受到保护,同时支持数据分析(使用数据丢失防护 (DLP)、大规模分析和政策引擎)以及 AI 训练和服务。

可信 AI

政府数据至关重要,可用于以可信的方式训练私有 AI 模型,从而改进内部服务和公民互动。 机密计算支持可信 AI 框架,通过机密提示或机密检索增强生成 (RAG) 训练来确保公民数据和模型的私密性和安全性。

供应链

借助机密计算,组织可以管理其供应链和可持续发展,开展协作并分享数据洞见,同时保持数据隐私。

下表介绍了供应链中保密计算的一些示例用途。

使用场景 说明

需求预测和库存优化

借助保密计算,每个企业都可以根据自己的销售和库存数据训练自己的需求预测模型。然后,这些模型会安全地汇总到全局模型中,从而更准确、更全面地了解整个供应链中的需求模式。

可保护隐私的供应商风险评估

参与供应商风险评估的每个组织(例如买家、金融机构和审核员)都会根据自己的数据训练自己的风险评估模型。这些模型会汇总在一起,以创建全面的供应商风险状况,从而有助于及早发现潜在的供应商风险、提高供应链的韧性,并在供应商选择和管理方面做出更明智的决策。

碳足迹跟踪和减少

在碳足迹跟踪和减排工作中,保密计算可为解决数据隐私和透明度方面的挑战提供解决方案。借助保密计算,组织可以共享和分析数据,而无需透露其原始形式,从而能够做出明智的决策并采取有效行动,实现更可持续的未来。

数字广告

数字广告已不再使用第三方 Cookie,而是转向 Privacy Sandbox 等更注重隐私保护的替代方案。Privacy Sandbox 可为关键广告使用场景提供支持,同时限制跨网站和应用跟踪。Privacy Sandbox 使用 TEE 来确保广告公司安全地处理用户数据。

您可以在以下数字广告使用情形中使用 TEEs

  • 匹配算法:在数据集中查找对应关系或关系。
  • 归因:将效果或事件与可能的原因相关联。
  • 汇总:根据原始数据计算摘要或统计信息。

在 Google Cloud上实现机密计算

Google Cloud 包含以下可实现机密计算的服务:

  • 机密虚拟机:为使用虚拟机的工作负载启用对使用中的数据进行加密的功能
  • 机密 GKE:为使用容器的工作负载启用使用中数据加密
  • 机密 Dataflow:启用对使用中的数据进行加密,以用于流式分析和机器学习
  • 机密 Dataproc:启用对使用中的数据进行加密,以进行数据处理
  • Confidential Space:支持对使用中的数据进行加密,以便进行联合数据分析和机器学习

借助这些服务,您可以缩小信任边界,从而减少对机密数据的资源访问权限。例如,在没有机密计算的 Google Cloud环境中,信任边界包括Google Cloud 基础架构(硬件、Hypervisor 和宿主操作系统)和 Guest 操作系统。在包含机密计算(但不包含 Confidential Space)的 Google Cloud 环境中,信任边界仅包含 Guest 操作系统和应用。在具有 Confidential Space 的 Google Cloud环境中,信任边界仅为应用及其关联的内存空间。下表显示了如何通过机密计算和 Confidential Space 来缩小信任边界。

元素 在信任边界内,但不使用机密计算 使用机密计算时在信任边界内 使用 Confidential Space 时在信任边界内

云堆栈和管理员

BIOS 和固件

主机操作系统和 Hypervisor

虚拟机 guest 管理员

虚拟机客机操作系统

是,已测量并经过证明

应用

是,已测量并经过证明

机密数据

Confidential Space 在虚拟机内创建一个安全区域,为敏感数据和应用提供最高级别的隔离和保护。Confidential Space 的主要安全优势包括:

  • 纵深防御:在现有的保密计算技术之上添加了一层额外的安全保障。
  • 减少攻击面:将应用与 Guest OS 中的潜在漏洞隔离开来。
  • 增强的控制功能:可在安全环境中精细控制访问权限和许可。
  • 更强的信任度:可更可靠地保证数据机密性和完整性。

Confidential Space 专为处理高度敏感的工作负载而设计,尤其是在受监管的行业或涉及多方协作且数据隐私至关重要的场景中。

机密分析、AI 和联邦学习的架构参考

您可以在 Google Cloud 上实现机密计算,以应对以下使用情形:

  • 保密分析
  • 保密 AI
  • 保密联邦学习

以下部分详细介绍了这些使用情形的架构,包括金融和医疗保健企业的示例。

面向医疗机构的保密分析架构

保密分析架构展示了多家医疗机构(例如提供方、生物制药机构和研究机构)如何协同工作来加快药物研究。此架构使用机密计算技术来创建数字净室,以运行机密协作分析。

此架构具有以下优势:

  • 更深入的分析洞见:借助协作分析,医疗保健组织可以获得更广泛的分析洞见,并缩短增强型药物发现的上市时间。
  • 数据隐私:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 暴露,从而确保保密性。
  • 合规性:该架构可帮助医疗机构严格控制其数据,从而遵守数据保护法规。
  • 信任和协作:该架构可实现竞争机构之间的安全协作,从而促进药物发现方面的集体努力。

下图展示了此架构。

医疗机构的保密分析架构图。

此架构中的关键组件包括:

  • TEE OLAP 汇总服务器:一个安全、隔离的环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,免遭未经授权的访问,即使是来自底层操作系统或云提供商的访问也不例外。
  • 协作合作伙伴:每家参与的医疗机构都有一个本地环境,该环境充当机构的私密数据与 TEE 之间的中介。
  • 特定于提供方的加密数据:每家医疗机构都会存储自己的私密加密患者数据,其中包括电子健康记录。在分析过程中,这些数据始终处于加密状态,从而确保数据隐私。只有在验证了各个提供商的证明声明后,才会将数据发布到 TEE。
  • 分析客户端:参与的医疗机构可以针对自己的数据运行保密查询,以立即获得数据洞见。

面向金融机构的保密 AI 架构

此架构模式演示了金融机构如何在协作训练欺诈检测模型的同时使用欺诈标签来保护其敏感交易数据的机密性。该架构使用保密计算技术来实现安全的多方机器学习。

此架构具有以下优势:

  • 增强型欺诈检测:协同训练使用更大、更多样化的数据集,从而生成更准确有效的欺诈检测模型。
  • 数据隐私:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 暴露,从而确保保密性。
  • 法规遵从性:该架构通过严格控制金融机构的数据,帮助其遵守数据保护法规。
  • 信任和协作:此架构可实现竞争机构之间的安全协作,从而共同打击金融欺诈。

下图展示了此架构。

金融机构的保密分析架构图。

此架构的关键组件包括:

  • TEE OLAP 汇总服务器:一个安全、隔离的环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,免遭未经授权的访问,即使是来自底层操作系统或云提供商的访问也不例外。
  • TEE 模型训练:全局欺诈基本模型打包为容器,以运行机器学习训练。在 TEE 中,系统会使用所有参与银行的加密数据进一步训练全局模型。训练过程采用联邦学习或安全多方计算等技术,以确保不会暴露任何原始数据。
  • 协作方合作伙伴:每家参与的金融机构都有一个本地环境,该环境充当机构的私有数据与 TEE 之间的中介。
  • 特定银行的加密数据:每家银行都持有自己的私密加密交易数据,其中包括欺诈标签。此数据在整个过程中始终保持加密状态,从而确保数据隐私性。只有在验证了各个银行的证明声明后,才会将数据发布到 TEE。
  • 模型库:一种预训练的欺诈检测模型,可作为协同训练的起点。
  • 经过训练的全局欺诈模型和权重(以绿线表示):改进后的欺诈检测模型及其学习的权重会安全地交换回参与银行。然后,他们可以在本地部署此增强型模型,以检测自己的交易是否存在欺诈行为。

面向金融机构的保密联邦学习架构

对于非常重视数据隐私和数据主权的客户,联邦学习提供了一种高级解决方案。保密联邦学习架构提供了一种安全、可伸缩且高效的方式,可将数据用于 AI 应用。此架构将模型带到数据存储位置,而不是将数据集中在一个位置,从而降低与数据泄露相关的风险。

此架构模式展示了多家金融机构如何在协作训练欺诈检测模型的同时,确保其包含欺诈标签的敏感交易数据的机密性。它使用联邦学习和保密计算技术,无需移动训练数据即可实现安全的多方机器学习。

此架构具有以下优势:

  • 增强数据隐私和安全性:联邦学习可确保敏感数据保留在每个站点,从而实现数据隐私和数据本地化。此外,金融机构还可以使用同态加密和差分隐私过滤器等可保护隐私的技术来进一步保护任何传输的数据(例如模型权重)。
  • 提高准确性和多样性:通过使用不同客户的各种数据源进行训练,金融机构可以开发出稳健且可泛化的全局模型,从而更好地表示异构数据集。
  • 可伸缩性和网络效率:借助在边缘执行训练的能力,机构可以在全球范围内扩缩联邦学习。此外,各机构只需传输模型权重,而无需传输整个数据集,从而实现网络资源的高效利用。

下图展示了此架构。

保密联邦学习架构图。

此架构的关键组件包括:

  • TEE 集群中的联邦服务器:一个安全、隔离的环境,联邦学习服务器通过先向联邦学习客户端发送初始模型来协调多个客户端的协作。客户端在其本地数据集上执行训练,然后将模型更新发送回联邦学习服务器以进行聚合,从而形成全局模型。
  • 联邦学习模型库:一种预训练的欺诈检测模型,可作为联邦学习的起点。
  • 本地应用推理引擎:一种执行任务的应用,可使用本地数据集执行本地计算和学习,并将结果提交回联邦学习服务器以进行安全聚合。
  • 本地私有数据:每家银行都持有自己的私有加密交易数据,其中包括欺诈标签。在整个过程中,这些数据始终处于加密状态,从而确保数据隐私性。
  • 安全聚合协议(以蓝色虚线表示):联邦学习服务器无需访问任何单个银行的更新即可训练模型;它只需要从随机选择的银行或网站子集中获取更新向量的按元素加权平均值。使用安全聚合协议计算这些加权平均值有助于确保服务器只能了解此随机选择的子集中的一个或多个银行写了某个字词,但无法了解是哪些银行,从而保护联邦学习过程中每位参与者的隐私。
  • 经过全局欺诈训练的模型和汇总权重(以绿线表示):改进后的欺诈检测模型及其学习到的权重会安全地发送回参与银行。然后,银行可以在本地部署此增强型模型,以检测自有交易中的欺诈行为。

后续步骤

贡献者