适用于数据分析、AI 和联邦学习的机密计算

Last reviewed 2024-12-20 UTC

本文档简要介绍了机密计算,包括如何将其用于安全的数据协作、AI 模型训练和联邦学习。本文档还提供了有关Google Cloud 中的机密计算服务的信息,以及适用于不同用例的架构参考。

本文档旨在帮助技术高管了解在金融服务和医疗保健等各个行业中,结合使用生成式 AI 和应用 AI 的保密计算的业务潜力。

什么是机密计算?

传统上,数据安全实践的重点是通过加密来保护静态数据和传输中的数据。机密计算通过解决数据在使用期间的易受攻击性问题,增添了一层保护。这项技术可确保敏感信息即使在处理过程中也保持机密性,从而帮助弥补数据安全方面的关键缺口。

机密计算环境通过基于硬件的可信执行环境 (TEE) 实现对使用中数据的保护。TEE 是处理器中的安全区域,可保护加载到其中的代码和数据的机密性和完整性。TEE 可作为敏感操作的安全空间,即使系统遭到入侵,也能降低数据风险。借助机密计算,数据可以在处理期间保持内存加密状态。

例如,您可以将机密计算用于数据分析和机器学习,以实现以下目标:

  • 增强隐私保护:对敏感数据集(例如医疗记录或财务数据)执行分析,而无需将数据公开给底层基础架构或计算中涉及的各方。
  • 安全协作:联合训练机器学习模型或对多方合并的数据集执行分析,而无需向对方泄露个人数据。机密计算有助于建立信任,并支持开发更稳健且可推广的模型,尤其是在医疗保健和金融等行业。
  • 增强数据安全性:降低数据泄露和未经授权的访问风险,确保遵守数据保护法规(例如《一般数据保护条例》[GDPR] 或《健康保险流通与责任法案》[HIPAA])。
  • 提高信任度和透明度:提供可验证的证明,证明计算是在安全环境中对预期数据执行的,从而提高利益相关方之间的信任度。

机密计算环境的运作方式

机密计算环境具有以下属性:

  • 运行时加密:处理器会将所有机密计算环境数据加密并存储在内存中。任何尝试直接从内存读取机密计算环境数据的系统组件或硬件攻击者都只会看到加密数据。同样,加密可防止通过直接访问内存来修改机密计算环境数据。
  • 隔离:处理器会阻止对机密计算环境的基于软件的访问。操作系统和其他应用只能通过特定接口与机密计算环境通信。
  • 认证:在机密计算环境中,认证用于验证机密计算环境的可信性。借助认证,用户可以看到机密计算在保护其数据的证据,因为认证可让您对 TEE 实例进行身份验证。

    在证明过程中,支持 TEE 的 CPU 芯片会生成实例测量的加密签名报告(称为证明报告)。然后,系统会将测量结果发送到认证服务。进程隔离证明用于对应用进行身份验证。虚拟机隔离证明用于对虚拟机、用于启动虚拟机的虚拟固件或二者进行身份验证。

  • 数据生命周期安全性:机密计算可创建安全的处理环境,为使用中的数据提供硬件支持的保护。

机密计算技术

以下技术支持机密计算:

  • 安全特区,也称为基于应用的机密计算
  • 机密虚拟机和 GPU,也称为基于虚拟机的机密计算

Google Cloud 使用机密虚拟机来实现机密计算。如需了解详情,请参阅在Google Cloud上实现机密计算

安全 Enclave

安全可信区是一种计算环境,可使用基于硬件的隔离机制为操作系统中的代码和数据提供隔离,或通过将 Hypervisor 放置在可信计算基 (TCB) 中来隔离整个虚拟机。安全 enclave 旨在确保即使对机器和操作系统具有物理访问权限或 root 访问权限的用户也无法了解安全 enclave 内存的内容,或篡改 enclave 内代码的执行。安全信箱的一个示例是 Intel Software Guard Extension (SGX)。

机密虚拟机和机密 GPU

机密虚拟机是一种虚拟机,它使用基于硬件的内存加密功能来帮助保护数据和应用。机密虚拟机提供隔离和认证功能,以提高安全性。机密虚拟机计算技术包括 AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE 和 Nvidia 机密 GPU。

机密 GPU 有助于保护数据并加快计算速度,尤其是在云端和共享环境中。它们使用基于硬件的加密和隔离技术,帮助在 GPU 上处理数据时保护数据,确保即使云服务提供商或恶意行为者也无法访问敏感信息。

机密数据分析、AI 和联邦学习用例

以下部分提供了适用于各个行业的机密计算用例示例。

医疗保健和生命科学

机密计算可跨组织安全地共享和分析数据,同时保护患者隐私。借助机密计算,医疗保健组织可以参与协作研究、疾病建模、药物发现和个性化治疗方案。

下表介绍了在医疗保健领域使用机密计算的一些示例。

使用场景 说明

疾病预测和早期检测

医院训练联邦学习模型,以便从医学影像数据(例如多家医院或医院区域的 MRI 扫描或 CT 扫描)中检测癌性病变,同时保护患者隐私。

实时患者监控

医疗保健提供方可分析来自穿戴式健康设备和移动健康应用的数据,以便进行实时监控和提醒。例如,穿戴式设备会收集血糖水平、身体活动和饮食习惯数据,以便针对血糖波动提供个性化建议和提前警告。

协作药物研发

制药公司可使用专有数据集训练模型,从而加速药物发现,增强协作,同时保护知识产权。

金融服务

借助机密计算,金融机构可以打造更安全、更弹性的金融系统。

下表介绍了在金融服务中使用机密计算的一些示例。

使用场景 说明

金融犯罪

金融机构可以分享可疑交易的相关信息,同时保护客户隐私,从而共同打击洗钱 (AML) 或一般欺诈行为。借助机密计算,机构可以安全地分析这些共享数据,并训练模型以更有效地识别和破坏复杂的洗钱活动。

可保护隐私的信用风险评估

贷款机构可以使用更广泛的数据源(包括其他金融机构甚至非金融实体的数据)来评估信用风险。借助机密计算,贷款机构无需向未经授权的各方披露这些数据,即可访问和分析这些数据,从而在保护数据隐私的同时提高信用评分模型的准确性。

可保护隐私的价格发现

在金融领域,尤其是在场外市场或非流动资产等领域,准确定价至关重要。借助机密计算,多个机构可以协同计算准确的价格,而无需向对方披露其敏感数据。

公共部门

借助机密计算,政府机构可以打造更透明、更高效、更实用的服务,同时保留对数据的控制权和主权。

下表介绍了公共部门中机密计算的一些示例用途。

使用场景 说明

数字主权

机密计算可确保数据始终处于加密状态,即使在处理过程中也是如此。它支持安全地将公民数据迁移到云端,即使数据托管在混合云、公有云或多云环境中的外部基础架构上,也能得到保护。机密计算支持和赋予数字主权和数字自治,并为使用中的数据提供额外的数据控制和保护,以便云服务提供商无法访问加密密钥。

多机构机密分析

机密计算支持跨多个政府机构(例如卫生、税务和教育机构)或跨不同地区或国家/地区的多个政府进行多方数据分析。机密计算有助于确保保护信任边界和数据隐私,同时支持数据分析(使用数据丢失防范 [DLP]、大规模分析和政策引擎)以及 AI 训练和服务。

可信 AI

政府数据至关重要,可用于以可信的方式训练专用 AI 模型,从而改进内部服务以及与公民的互动。机密计算支持可信 AI 框架,通过机密提示或机密检索增强生成 (RAG) 训练来确保公民数据和模型的私密性和安全性。

供应链

借助机密计算,组织可以管理其供应链和可持续发展合作伙伴,并在分享数据洞见的同时保护数据隐私。

下表介绍了供应链中使用机密计算的一些示例。

使用场景 说明

需求预测和广告资源优化

借助机密计算,每个企业都可以根据自己的销售和库存数据训练自己的需求预测模型。然后,这些模型会安全地汇总到一个全局模型中,从而更准确、更全面地了解整个供应链的需求模式。

可保护隐私的供应商风险评估

参与供应商风险评估的每个组织(例如买方、金融机构和审核员)都会根据自己的数据训练自己的风险评估模型。这些模型会汇总起来,以创建全面且可保护隐私的供应商风险信号,从而能够及早发现潜在的供应商风险、提高供应链弹性,并在供应商选择和管理方面做出更明智的决策。

碳足迹跟踪和减少

机密计算提供了一种解决方案,可应对碳足迹跟踪和减少工作中的数据隐私和透明度方面的挑战。借助机密计算,组织无需披露数据的原始形式即可分享和分析数据,从而做出明智的决策并采取有效措施,为实现更可持续的未来奠定基础。

数字广告

数字广告已从第三方 Cookie 转向更注重隐私保护的替代方案,例如 Privacy Sandbox。Privacy Sandbox 支持关键的广告应用场景,同时限制跨网站和跨应用跟踪。Privacy Sandbox 使用 TEE 来确保广告公司能够安全地处理用户数据。

您可以在以下数字广告用例中使用 TEE

  • 匹配算法:在数据集中查找对应项或关系。
  • 归因:将影响或事件与其可能的原因相关联。
  • 汇总:根据原始数据计算摘要或统计信息。

在 Google Cloud上实现机密计算

Google Cloud 包含以下可启用机密计算的服务:

  • 机密虚拟机:为使用虚拟机的工作负载启用使用中数据的加密
  • 机密 GKE:为使用容器的工作负载启用使用中数据的加密
  • 机密 Dataflow:支持对用于流式分析和机器学习的使用中数据进行加密
  • 机密 Dataproc:支持对使用中的数据进行加密以进行数据处理
  • Confidential Space:支持对使用中的数据进行加密,以便进行联合数据分析和机器学习

借助这些服务,您可以缩小信任边界,从而减少有权访问机密数据的资源。例如,在未启用机密计算的 Google Cloud环境中,信任边界包括Google Cloud 基础架构(硬件、Hypervisor 和主机操作系统)和客机操作系统。在包含机密计算(不含 Confidential Space)的 Google Cloud 环境中,信任边界仅包含来宾操作系统和应用。在包含 Confidential Space 的 Google Cloud环境中,信任边界只是应用及其关联的内存空间。下表展示了如何通过机密计算和机密空间减少信任边界。

元素 在信任边界内,不使用机密计算 使用机密计算时在信任边界内 使用 Confidential Space 时在信任边界内

Cloud 堆栈和管理员

BIOS 和固件

主机操作系统和 Hypervisor

虚拟机客机管理员

虚拟机客户机操作系统

是,已测量并经过证明

应用

是,已测量并经过证明

机密数据

Confidential Space 可在虚拟机内创建安全区域,为敏感数据和应用提供最高级别的隔离和保护。机密聊天室的主要安全优势包括:

  • 纵深防御:在现有机密计算技术之上额外添加一层安全保障。
  • 减少攻击面:将应用与虚拟机操作系统中的潜在漏洞隔离。
  • 增强控制:在安全环境中对访问权限进行精细控制。
  • 增强信任:更有保障地保护数据的机密性和完整性。

Confidential Space 专为处理高度敏感的工作负载而设计,尤其是在受监管行业或涉及多方协作且数据隐私至关重要的场景中。

机密分析、AI 和联邦学习的架构参考

您可以在 Google Cloud 上实现机密计算,以实现以下用例:

  • 机密分析
  • 机密 AI
  • 机密联邦学习

以下部分详细介绍了这些用例的架构,包括金融和医疗保健行业的示例。

适用于医疗机构的机密分析架构

机密分析架构展示了多个医疗机构(例如提供商、生物制药公司和研究机构)如何协同工作以加快药物研究的速度。此架构使用机密计算技术创建数字化无菌室,以运行机密协作分析。

此架构具有以下优势:

  • 增强分析洞见:借助协作分析,医疗保健组织可以获得更广泛的分析洞见,缩短药物发现上市时间。
  • 数据隐私:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 泄露,从而确保机密性。
  • 合规:该架构可帮助医疗机构通过对数据进行严格控制来遵守数据保护法规。
  • 信任和协作:该架构支持竞争性机构之间进行安全协作,从而共同努力发现药物。

下图展示了此架构。

医疗机构机密分析架构图。

此架构中的关键组件包括:

  • TEE OLAP 汇总服务器:一种安全的隔离环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,不会遭到未经授权的访问,即使是底层操作系统或云服务提供商也无法访问。
  • 合作伙伴:每个参与计划的卫生机构都有一个本地环境,该环境充当机构的私密数据与 TEE 之间的中介。
  • 特定于提供方的加密数据:每个医疗机构都会存储自己的加密患者私密数据,其中包括电子健康记录。这些数据在分析过程中会保持加密状态,从而确保数据隐私。只有在验证来自各个提供商的认证声明后,系统才会将数据释放给 TEE。
  • 分析客户端:参与计划的卫生机构可以对其数据运行机密查询,以便立即获得数据分析。

适用于金融机构的机密 AI 架构

此架构模式展示了金融机构如何协作训练欺诈检测模型,同时使用欺诈标签来保护其敏感交易数据的机密性。该架构使用机密计算技术实现安全的多方机器学习。

此架构具有以下优势:

  • 增强型欺诈检测:协作训练使用更大、更丰富的数据集,从而打造更准确、更有效的欺诈检测模型。
  • 数据隐私:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 泄露,从而确保机密性。
  • 法规遵从:该架构可帮助金融机构严格控制其数据,从而遵守数据保护法规。
  • 信任和协作:这种架构支持竞争性机构之间进行安全协作,从而共同打击金融欺诈。

下图展示了此架构。

适用于金融机构的机密分析架构图。

此架构的关键组件包括:

  • TEE OLAP 汇总服务器:一种安全的隔离环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,不会遭到未经授权的访问,即使是底层操作系统或云服务提供商也无法访问。
  • TEE 模型训练:全局欺诈基准模型被打包为容器以运行机器学习训练。在 TEE 中,系统会使用来自所有参与银行的加密数据进一步训练全局模型。训练过程采用联邦学习或安全多方计算等技术,以确保不会泄露任何原始数据。
  • 协作伙伴:每个参与计划的金融机构都有一个本地环境,该环境充当该机构的私有数据与 TEE 之间的中介。
  • 特定于银行的加密数据:每家银行都拥有自己的私密加密交易数据,其中包含欺诈标签。这些数据在整个过程中都保持加密状态,以确保数据隐私。只有在验证各个银行的认证声明后,系统才会将数据释放给 TEE。
  • 模型代码库:一个预训练的欺诈检测模型,可用作协作训练的起点。
  • 经过欺诈训练的全局模型和权重(用绿色线表示):经过改进的欺诈检测模型及其学习到的权重会安全地交换回参与计划的银行。然后,他们可以在本地部署此增强型模型,以便对自己的交易进行欺诈检测。

适用于金融机构的机密联邦学习架构

联邦学习为注重严格的数据隐私保护和数据主权的客户提供了一款先进的解决方案。机密联邦学习架构提供了一种安全、可扩缩且高效的方式,可将数据用于 AI 应用。这种架构会将模型移至数据存储位置,而不是将数据集中到单个位置,从而降低与数据泄露相关的风险。

此架构模式展示了多家金融机构如何协作训练欺诈检测模型,同时确保其包含欺诈标签的敏感交易数据的机密性。它结合使用联邦学习和机密计算技术,无需移动训练数据即可实现安全的多方机器学习。

此架构具有以下优势:

  • 增强型数据隐私和安全性:联邦学习可确保敏感数据保留在每个网站上,从而实现数据隐私和数据本地化。此外,金融机构还可以使用同态加密和差分隐私过滤器等可保护隐私的方法,进一步保护所有传输的数据(例如模型权重)。
  • 提高准确性和多样性:通过使用来自不同客户的各种数据源进行训练,金融机构可以开发出稳健且可推广的全局模型,以更好地代表异构数据集。
  • 可伸缩性和网络效率:借助在边缘设备上执行训练的能力,机构可以在全球范围内扩展联邦学习。此外,机构只需传输模型权重,而无需传输整个数据集,从而能够高效使用网络资源。

下图展示了此架构。

机密联邦学习架构图。

此架构的关键组件包括:

  • TEE 集群中的联邦服务器:一个安全的隔离环境,其中联邦学习服务器会先向联邦学习客户端发送初始模型,然后协调多个客户端的协作。客户端会对其本地数据集进行训练,然后将模型更新发回给联邦学习服务器进行汇总,以形成全局模型。
  • 联邦学习模型仓库:一个预训练的欺诈检测模型,可作为联邦学习的起点。
  • 本地应用推理引擎:一种应用,用于执行任务、使用本地数据集执行本地计算和学习,并将结果提交回联邦学习服务器以进行安全聚合。
  • 本地私密数据:每家银行都拥有自己的加密私密交易数据,其中包含欺诈标签。这些数据在整个过程中都会保持加密状态,以确保数据隐私。
  • 安全汇总协议(用蓝色虚线表示):联邦学习服务器无需访问任何单个银行的更新即可训练模型;它只需要从随机选取的银行或网站子集中获取更新矢量的逐元素加权平均值。使用安全聚合协议计算这些加权平均值有助于确保服务器只能了解此随机选择的子集中一个或多个银行写入了给定字词,但无法了解是哪些银行,从而保护联邦学习过程中每个参与者的隐私。
  • 针对欺诈行为训练的全局模型和汇总权重(用绿色线表示):改进后的欺诈检测模型及其学习到的权重会安全地发送回参与计划的银行。然后,银行可以在本地部署此增强型模型,以便对自己的交易进行欺诈检测。

后续步骤

贡献者