資料分析、AI 和聯合學習的機密運算

Last reviewed 2024-12-20 UTC

本文將概略介紹機密運算,包括如何將其用於安全資料協作、AI 模型訓練和聯邦學習。這份文件也提供Google Cloud 中的機密運算服務資訊,以及不同用途的架構參考資料。

本文件旨在協助技術主管瞭解在金融服務和醫療保健等各個產業中,透過生成式 AI 和應用 AI 的機密運算技術,可帶來哪些商機。

什麼是機密運算?

資料安全性做法通常著重於透過加密保護靜態資料和傳輸中的資料。機密運算功能會在資料使用期間解決資料的安全漏洞,進而提供額外的防護機制。這項技術可確保私密資訊在處理期間仍保持機密,有助於彌補資料安全性的重要缺口。

機密運算環境會透過硬體式受信任的執行環境 (TEE) 保護使用中的資料。TEE 是處理器中的安全區域,可保護載入其中的程式碼和資料機密性和完整性。TEE 可做為機密作業的安全空間,即使系統遭到入侵,也能降低資料風險。在機密運算的環境中,處理期間的資料會維持加密狀態。

舉例來說,您可以使用機密運算來進行資料分析和機器學習,以便達成以下目標:

  • 強化隱私權:針對私密資料集 (例如醫療記錄或財務資料) 執行分析,不必將資料公開給基礎結構或計算過程中涉及的各方。
  • 安全的合作:共同訓練機器學習模型,或針對多方合併的資料集執行分析,不必彼此揭露個別資料。機密運算可建立信任,並協助開發更健全且可推廣的模型,特別是在醫療照護和金融等產業。
  • 提升資料安全性:降低資料外洩和未經授權存取的風險,確保遵守資料保護法規,例如《一般資料保護規則》(GDPR) 或《健康保險流通與責任法案》(HIPAA)。
  • 提高信任度和透明度:提供可驗證的證明,證明計算是在安全環境中針對指定資料執行,提高利益相關者對您的信任。

機密運算環境的運作方式

機密運算環境具有下列屬性:

  • 執行階段加密:處理器會將所有機密運算環境資料加密,並儲存在記憶體中。任何系統元件或硬體攻擊者,如果嘗試直接從記憶體讀取機密運算環境資料,都只會看到已加密的資料。同樣地,加密功能可防止直接存取記憶體,進而修改機密運算環境資料。
  • 隔離:處理器會封鎖軟體存取機密運算環境的權限。作業系統和其他應用程式只能透過特定介面與機密運算環境進行通訊。
  • 認證:在機密運算的情況下,認證會驗證機密運算環境的可信度。使用認證功能後,使用者就能看到機密運算技術保護其資料的證據,因為認證功能可讓您驗證 TEE 例項。

    在驗證程序期間,支援 TEE 的 CPU 晶片會產生執行個體測量值的加密編譯簽章報表 (稱為「驗證報告」)。然後將測量值傳送至認證服務。程序隔離認證可驗證應用程式。VM 隔離認證會驗證 VM 和/或用於啟動 VM 的虛擬韌體。

  • 資料生命週期安全性:機密運算可建立安全的處理環境,為使用中的資料提供硬體支援的保護機制。

機密運算技術

以下技術可啟用機密運算:

  • 安全特區,又稱為應用程式機密運算
  • 機密 VM 和 GPU,又稱為以 VM 為基礎的機密運算

Google Cloud 會使用機密 VM 啟用機密運算功能。詳情請參閱「在Google Cloud上實作機密運算」。

安全區

安全區域是一種運算環境,可透過硬體式隔離機制,為作業系統的程式碼和資料提供隔離功能,或是將虛擬機器管理程序置於受信任的運算基礎 (TCB) 中,隔離整個 VM。安全特區的設計目的,是確保即使是擁有機器和作業系統實體或根層級存取權的使用者,也無法瞭解安全特區記憶體的內容,或竄改特區內的程式碼執行作業。安全區塊的範例包括 Intel 軟體保護擴充功能 (SGX)。

機密 VM 和機密 GPU

機密 VM 是一種使用硬體記憶體加密技術的 VM,可協助保護資料和應用程式。Confidential VM 提供隔離和認證功能,可提升安全性。機密 VM 運算技術包括 AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE 和 Nvidia 機密 GPU。

機密 GPU 可協助保護資料並加快運算速度,特別是在雲端和共用環境中。這些技術會使用硬體加密和隔離技術,在 GPU 處理資料時保護資料,確保即使是雲端供應商或惡意人士也無法存取機密資訊。

機密資料分析、AI 和聯合學習用途

以下各節提供各種產業機密運算用途的範例。

醫療照護與生命科學

機密運算可讓機構在保護病患隱私的同時,安全地分享及分析資料。機密運算可讓醫療機構參與合作研究、疾病模擬、藥物開發和個人化治療計畫。

下表說明醫療保健領域中機密運算的幾種用途。

用途 說明

預測疾病並及早偵測

醫院訓練聯邦學習模型,以便在保護病患隱私的情況下,從醫療影像資料 (例如多家醫院或醫院區域的 MRI 掃描或 CT 掃描) 中偵測癌症病灶。

即時監控病患情形

醫療照護機構可分析穿戴式健康裝置和行動健康應用程式提供的資料,以便即時監控及發出警示。舉例來說,穿戴式裝置會收集葡萄糖水準、身體活動和飲食習慣的資料,以便提供個人化建議,並提前警告血糖波動。

協作藥物研發

製藥公司可根據專屬資料集訓練模型,加快藥物開發速度,同時保護智慧財產,提升協作效率。

金融服務

機密運算可讓金融機構建立更安全且具備復原能力的金融系統。

下表說明金融服務中機密運算的幾個用途範例。

用途 說明

金融犯罪

金融機構可透過分享可疑交易資訊,同時保護客戶隱私,共同合作推動反洗錢 (AML) 或一般詐欺模型。透過機密運算,機構可以以安全的方式分析這些共用資料,並訓練模型,更有效地識別並破壞複雜的洗錢手法。

隱私權保護的信用風險評估

放款人可以使用更廣泛的資料來源評估信貸風險,包括其他金融機構甚至是非金融實體的資料。透過機密運算技術,放款機構就能存取及分析這類資料,而不必將資料洩漏給未經授權的對象,進而提升信用評分模型的準確度,同時確保資料隱私性。

隱私權保護定價探索

在金融領域,尤其是場外市場或非流動性資產等領域,準確的定價至關重要。機密運算可讓多個機構共同計算準確的價格,而不會彼此揭露機密資料。

公部門

機密運算可讓政府建立更透明、更有效率且更有效的服務,同時保有資料的主權和控制權。

下表說明機密運算在公共部門的部分用途。

用途 說明

數位主權

機密運算可確保資料在處理過程中始終處於加密狀態。這項服務可讓您安全地將民眾的資料遷移至雲端,即使資料託管在外部基礎架構、混合雲、公用雲或多雲端環境中,也能受到保護。機密運算可支援及強化數位主權和數位自主性,並提供額外的資料控管和使用中資料保護機制,確保雲端服務供應商無法存取加密金鑰。

多機關機密數據分析

機密運算可跨多個政府機關 (例如衛生、稅務和教育),或跨不同區域或國家/地區的多個政府機關,進行多方資料分析。機密運算可確保信任界限和資料隱私權,同時支援資料分析 (使用資料遺失防護 (DLP)、大規模分析和政策引擎) 以及 AI 訓練和服務。

信任的 AI

政府資料非常重要,可用於以可信的方式訓練私人 AI 模型,以改善內部服務和公民互動。機密運算可讓您使用可信的 AI 架構,透過機密提示或機密檢索增強生成 (RAG) 訓練,確保公民資料和模型的隱私和安全性。

供應鏈

機密運算可讓機構管理其供應鏈和永續性合作,並在維持資料隱私性的同時分享洞察資料。

下表說明供應鏈中機密運算的幾個用途範例。

用途 說明

需求預測和商品目錄最佳化

透過機密運算,每家企業都能根據自己的銷售和商品目錄資料,訓練專屬的需求預測模型。這些模型隨後會安全地匯入全球模型,提供更準確且全面的供應鏈需求模式。

隱私權保護供應商風險評估

每個參與供應商風險評估的機構 (例如買家、金融機構和稽核人員) 都會根據自己的資料訓練風險評估模型。這些模型會匯總成完整的供應商風險資料,同時保護隱私權,讓我們能及早找出潛在的供應商風險、提高供應鏈彈性,並在供應商選用和管理方面做出更明智的決策。

追蹤及減少碳足跡

在追蹤和減少碳足跡的過程中,資料隱私和資訊透明度是相當重要的課題,而機密運算可提供解決方案,協助您克服這些挑戰。機密運算可讓機構分享及分析資料,而無須揭露原始形式,讓機構能做出明智的決策,並採取有效行動,朝更永續的未來邁進。

數位廣告

數位廣告已從第三方 Cookie 轉向更注重隱私權保護的替代方案,例如 Privacy Sandbox。Privacy Sandbox 支援重要廣告用途,同時限制跨網站和應用程式追蹤。Privacy Sandbox 會使用 TEE,確保廣告公司能安全地處理使用者資料。

您可以在下列數位廣告用途中使用 TEEs

  • 比對演算法:在資料集內尋找對應或關係。
  • 歸因:將影響或事件連結至可能的原因。
  • 匯總:根據原始資料計算摘要或統計資料。

在 Google Cloud上導入機密運算

Google Cloud 包含下列可啟用機密運算的服務:

  • 機密 VM:為使用 VM 的工作負載啟用使用中資料加密功能
  • 機密 GKE:為使用容器的工作負載啟用使用中資料的加密功能
  • 機密資料流:啟用使用中的資料加密功能,以便進行串流分析和機器學習
  • 機密 Dataproc:啟用資料處理中使用中資料的加密功能
  • 機密空間:啟用使用中資料的加密功能,以便進行共同資料分析和機器學習

這些服務可讓您縮小信任範圍,讓較少資源存取機密資料。舉例來說,在 Google Cloud沒有機密運算的環境中,信任界限包括Google Cloud 基礎架構 (硬體、管理程序和主機作業系統) 和客體作業系統。在 Google Cloud 包含機密運算 (但沒有機密空間) 的環境中,信任界線只包含來賓作業系統和應用程式。在 Google Cloud使用機密空間的環境中,信任邊界只是應用程式及其相關聯的記憶體空間。下表說明如何透過機密運算和機密空間縮小信任邊界。

元素 在信任範圍內,不使用機密運算 使用機密運算時,信任界線內 使用機密空間時,信任界線內

雲端堆疊和管理員

BIOS 和韌體

主機作業系統和管理程序

VM 訪客管理員

VM 訪客 OS

是,已測量並認證

應用程式

是,已測量並認證

機密資料

機密空間會在 VM 中建立安全區域,為機密資料和應用程式提供最高等級的隔離和保護措施。Confidential Space 的主要安全防護優勢包括:

  • 多層防護:在現有的機密運算技術上再增添一層安全防護。
  • 減少攻擊面:將應用程式與可能的訪客作業系統安全漏洞隔離。
  • 強化控管:針對安全環境中的存取權和權限提供精細控管機制。
  • 更強的信任:可更確保資料機密性和完整性。

機密空間專為處理高度機密的工作負載而設計,特別是在受管制產業或涉及多方協作的情況下,資料隱私權就顯得格外重要。

機密分析、AI 和聯合學習的架構參考資料

您可以在 Google Cloud 上實作機密運算,以因應下列用途:

  • 機密分析
  • 機密 AI
  • 機密聯合學習

以下幾節將進一步說明這些用途的架構,包括金融和醫療保健產業的範例。

醫療機構專用的機密數據分析架構

機密分析架構說明多家醫療照護機構 (例如醫療服務機構、生物製藥公司和研究機構) 如何合作,加快藥物研究速度。這個架構會使用機密運算技術,建立數位無塵室,以便執行機密協作分析。

此架構具備下列優點:

  • 強化洞察:協作式分析可讓醫療機構取得更廣泛的洞察資料,並縮短藥物開發時間,以便提升藥物開發效率。
  • 資料隱私權:機密交易資料會保持加密狀態,絕不會向其他參與者或 TEE 揭露,確保機密性。
  • 法規遵循:這個架構可協助醫療機構嚴格控管資料,以便遵守資料保護法規。
  • 信任與協作:這項架構可讓競爭機構之間安全地協作,共同努力尋找藥物。

下圖顯示這個架構。

醫療機構機密數據分析架構的圖表。

這個架構中的關鍵元件包括:

  • TEE OLAP 匯總伺服器:安全的隔離環境,用於進行機器學習模型訓練和推論。TEE 中的資料和程式碼可受到保護,避免遭到未經授權的存取,甚至是來自底層作業系統或雲端供應者的存取。
  • 合作夥伴:每個參與的醫療機構都有一個本機環境,可做為機構私人資料和 TEE 之間的中介。
  • 供應商專屬的加密資料:每家醫療機構都會儲存自己的私人加密患者資料,包括電子健康記錄。這些資料在分析過程中會保持加密狀態,確保資料隱私權。只有在驗證個別供應商的認證要求後,系統才會將資料釋出至 TEE。
  • Analytics 客戶:參與計畫的醫療機構可以針對自己的資料執行機密查詢,立即取得洞察資料。

金融機構專用的機密 AI 架構

這個架構模式說明金融機構如何協同合作訓練詐欺偵測模型,同時使用詐欺標籤來保護機密交易資料的機密性。這項架構採用機密運算技術,可實現安全的多方機器學習。

此架構具備下列優點:

  • 強化詐欺偵測功能:協同訓練會使用更大且多元的資料集,進而建立更準確且有效的詐欺偵測模型。
  • 資料隱私權:機密交易資料會保持加密狀態,絕不會向其他參與者或 TEE 揭露,確保機密性。
  • 法規遵循:這個架構可協助金融機構嚴格控管資料,以便遵守資料保護法規。
  • 信任與協作:這項架構可讓競爭機構之間安全地協作,共同打擊金融詐欺。

下圖顯示這個架構。

金融機構機密數據分析架構圖。

這個架構的主要元件包括:

  • TEE OLAP 匯總伺服器:安全的隔離環境,用於進行機器學習模型訓練和推論。TEE 中的資料和程式碼可受到保護,避免遭到未經授權的存取,甚至是來自底層作業系統或雲端供應者的存取。
  • TEE 模型訓練:全球詐欺基礎模型會封裝為容器,以便執行機器學習訓練。在 TEE 中,系統會使用所有參與銀行的加密資料,進一步訓練全域模型。訓練程序會採用聯合學習或安全多方運算等技術,確保不會揭露任何原始資料。
  • 協作者合作夥伴:每家參與的金融機構都有一個本機環境,可做為機構私人資料與 TEE 之間的中介。
  • 銀行專屬的加密資料:每家銀行都會保留自己的私人加密交易資料,其中包含詐欺標籤。這類資料在整個程序中都會保持加密狀態,確保資料隱私。只有在驗證個別銀行的認證要求後,系統才會將資料釋出至 TEE。
  • 模型存放區:預先訓練的詐欺偵測模型,可做為協同訓練的起點。
  • 全球詐欺訓練模型和權重 (以綠線表示):改良的詐欺偵測模型及其學習權重會安全地傳回給參與的銀行。然後在本機部署這項強化模型,用於偵測自己的交易是否有詐欺行為。

金融機構專用的機密聯合學習架構

聯邦學習為重視嚴格資料隱私和資料主權的客戶提供先進解決方案。機密聯邦學習架構提供安全、可擴充且有效率的方式,讓 AI 應用程式使用資料。這個架構會將模型帶到資料儲存的位置,而不是將資料集中在單一位置,藉此降低資料外洩的風險。

這個架構模式說明多家金融機構如何合作訓練詐欺偵測模型,同時保留敏感交易資料的機密性,並加上詐欺標籤。這項技術會使用聯合學習和機密運算技術,在不移動訓練資料的情況下,實現安全的多方機器學習。

此架構具備下列優點:

  • 提升資料隱私權和安全性:聯邦學習可確保機密資料留在各個網站,進而保障資料隱私權和資料本地化。此外,金融機構可以使用同態加密和差異化隱私篩選器等隱私權保護技術,進一步保護任何轉移的資料 (例如模型權重)。
  • 提高準確度和多樣性:金融機構可運用不同客戶的各種資料來源進行訓練,開發出可靠且可推廣的全球模型,以便更準確地呈現異質資料集。
  • 可擴展性和網路效率:機構可在邊緣執行訓練,因此可在全球擴展聯合學習。此外,機構只需傳輸模型權重,而非整個資料集,即可有效運用網路資源。

下圖顯示這個架構。

機密聯合學習架構圖。

這個架構的主要元件包括:

  • TEE 叢集中的聯合伺服器:安全的隔離環境,聯合學習伺服器會先將初始模型傳送至聯合學習用戶端,藉此協調多個用戶端的協作作業。用戶端會在本機資料集上執行訓練,然後將模型更新內容傳回聯合學習伺服器,以便匯總並形成全球模型。
  • 聯合學習模型存放區:預先訓練的詐欺偵測模型,可做為聯合學習的起點。
  • 本機應用程式推論引擎:這類應用程式會執行工作,並使用本機資料集執行本機運算和學習,然後將結果提交回聯邦學習伺服器,以便安全地匯總。
  • 本機私人資料:每家銀行都會保留自己的私人加密交易資料,其中包含詐欺標籤。這類資料在整個程序中都會保持加密狀態,確保資料隱私。
  • 安全匯總協定 (以藍色虛線表示):聯邦學習伺服器不需要存取任何個別銀行的更新內容,即可訓練模型;它只需要從隨機的銀行或網站子集取得更新向量的元素加權平均值。使用安全匯總通訊協定來計算這些加權平均值,有助於確保伺服器只能瞭解這個隨機選取的子集內有一或多家銀行寫下特定字詞,但無法得知是哪些銀行,進而保護聯合學習程序中每位參與者的隱私權。
  • 全球詐欺訓練模型和匯總權重 (以綠線表示):經過改善的詐欺偵測模型,以及其學習到的權重,會安全地傳回給參與的銀行。銀行接著可在本機部署這項強化模型,用於偵測自身交易的詐欺行為。

後續步驟

貢獻者