資料分析、AI 和聯合學習的機密運算

Last reviewed 2024-12-20 UTC

本文將概要介紹機密運算,包括如何運用這項技術安全地進行資料協作、訓練 AI 模型和進行聯邦學習。這份文件也提供有關Google Cloud 中機密運算服務的資訊,以及不同用途的架構參考資料。

本文件旨在協助技術主管瞭解機密運算在各行各業 (包括金融服務和醫療保健) 中,與生成式 AI 和應用 AI 結合的商機。

什麼是機密運算?

傳統的資料安全做法著重於透過加密保護靜態和傳輸中的資料。機密運算功能可解決資料在有效使用期間的安全漏洞,進而新增一層防護機制。這項技術可確保私密資訊在處理期間不會外洩,有助於彌補資料安全方面的重大缺口。

機密運算環境會透過硬體式受信任的執行環境 (TEE),保護使用中的資料。TEE 是處理器內的安全區域,可保護載入其中的程式碼和資料的機密性和完整性。TEE 可做為機密作業的安全室,即使系統遭到入侵,也能降低資料風險。有了機密運算功能,資料在處理期間可維持記憶體加密狀態。

舉例來說,您可以使用機密運算進行資料分析和機器學習,以達成下列目標:

  • 強化隱私:對敏感資料集 (例如病歷或財務資料) 執行分析,不必將資料公開給基礎架構或參與運算的各方。
  • 安全協作:共同訓練機器學習模型,或對多方合併的資料集執行分析,不必向彼此揭露個別資料。機密運算有助於建立信任感,並開發更強大且可泛用的模型,特別是在醫療保健和金融等領域。
  • 提升資料安全性:降低資料外洩和未經授權存取的風險,確保符合資料保護法規,例如《一般資料保護規則》(GDPR) 或《健康保險流通與責任法案》(HIPAA)。
  • 提高信任度和透明度:提供可驗證的證據,證明運算是在預期資料上進行,且環境安全無虞,進而提高利害關係人的信任度。

機密運算環境的運作方式

機密運算環境具有下列屬性:

  • 執行階段加密:處理器會將所有機密運算環境資料加密儲存在記憶體中。任何試圖直接從記憶體讀取機密運算環境資料的系統元件或硬體攻擊者,只會看到加密資料。同樣地,加密可防止透過直接存取記憶體修改機密運算環境資料。
  • 隔離:處理器會封鎖軟體對機密運算環境的存取權,作業系統和其他應用程式只能透過特定介面與機密運算環境通訊。
  • 驗證:在機密運算環境中,驗證會確認機密運算環境的可靠性。透過認證,使用者可以查看機密運算技術保護資料的證據,因為認證可讓您驗證 TEE 執行個體。

    在驗證過程中,支援 TEE 的 CPU 晶片會產生執行個體測量的加密簽章報表 (稱為驗證報表)。然後將測量結果傳送至認證服務。程序隔離認證會驗證應用程式。VM 隔離認證會驗證 VM、用於啟動 VM 的虛擬韌體,或兩者皆驗證。

  • 資料生命週期安全:機密運算會建立安全的處理環境,為使用中的資料提供硬體支援的保護措施。

機密運算技術

下列技術可啟用機密運算:

  • 安全封閉區,又稱為以應用程式為基礎的機密運算
  • 機密 VM 和 GPU,也稱為「VM 型機密運算」

Google Cloud 使用機密 VM 啟用機密運算。詳情請參閱「在Google Cloud 上實作機密運算」。

安全區

安全封閉區是運算環境,可透過硬體式隔離或將 Hypervisor 放在受信任的運算基礎 (TCB) 內,隔離程式碼和作業系統的資料。安全區域的設計宗旨是確保即使使用者擁有機器和作業系統的實體或根存取權,也無法瞭解安全區域記憶體的內容,或竄改區域內執行的程式碼。安全封鎖區的例子包括 Intel Software Guard Extension (SGX)。

機密 VM 和機密 GPU

機密 VM 是一種 VM,可使用硬體式記憶體加密功能保護資料和應用程式。Confidential VM 提供隔離和驗證功能,可提升安全性。機密 VM 運算技術包括 AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE 和 Nvidia Confidential GPU。

機密 GPU 有助於保護資料並加快運算速度,尤其是在雲端和共用環境中。這項技術採用硬體式加密和隔離技術,有助於保護 GPU 處理中的資料,確保雲端供應商或惡意人士都無法存取機密資訊。

機密資料分析、AI 和聯邦學習用途

以下各節提供各產業的機密運算用途範例。

醫療照護與生命科學

機密運算可讓機構安全地分享及分析資料,同時保護病患隱私。機密運算可協助醫療機構參與合作研究、疾病建模、藥物研發和個人化治療計畫。

下表說明醫療保健領域的機密運算使用案例。

用途 說明

疾病預測和早期偵測

醫院訓練聯邦學習模型,從醫療影像資料 (例如多間醫院或醫院區域的 MRI 掃描或 CT 掃描) 偵測癌性病灶,同時維護病患隱私。

即時監控病患情形

醫療照護服務提供者會分析穿戴式健康裝置和行動健康應用程式的資料,以便即時監控和發出警示。舉例來說,穿戴式裝置會收集血糖濃度、體能活動和飲食習慣等資料,提供個人化建議,並在血糖波動時發出警示。

協作藥物研發

製藥公司會使用專屬資料集訓練模型,加快藥物探索速度、提升協作效率,同時保護智慧財產。

金融服務

金融機構可運用機密運算技術,打造更安全且具備復原能力的金融系統。

下表說明金融服務中機密運算的幾個使用範例。

用途 說明

金融犯罪

金融機構可以分享可疑交易的相關資訊,同時保護客戶隱私權,共同防範洗錢或一般詐欺行為。機構可運用機密運算技術,安全地分析這些共用資料,並訓練模型,更有效地識別及防範複雜的洗錢計畫。

隱私權保護信用風險評估

放款人可使用更多資料來源評估信用風險,包括其他金融機構,甚至是其他非金融實體的資料。有了機密運算技術,放款人就能存取及分析這類資料,不必擔心資料外洩給未經授權的對象,進而提高信用評分模型的準確度,同時維護資料隱私權。

隱私權保護定價探索

在金融界,尤其是在場外交易市場或流動性不佳的資產等領域,準確的定價至關重要。機密運算可讓多個機構協同計算準確價格,同時不會向彼此揭露機密資料。

公部門

政府可透過機密運算建立更透明、有效率且有效的服務,同時保有資料的控制權和主權。

下表說明機密運算在公部門的一些應用範例。

用途 說明

數位主權

機密運算可確保資料一律經過加密,即使在處理過程中也不例外。這項服務可安全地將民眾資料遷移至雲端,即使資料託管於外部基礎架構,也能在混合雲、公有雲或多雲環境中受到保護。機密運算支援並強化數位主權和數位自主性,可進一步控管及保護使用中的資料,讓雲端服務供應商無法存取加密金鑰。

多機構機密數據分析

機密運算可讓多個政府機構 (例如衛生、稅務和教育) 或不同區域/國家/地區的多個政府,進行多方資料分析。機密運算有助於確保信任界線和資料隱私權受到保護,同時支援資料分析 (使用資料遺失防護 (DLP)、大規模分析和政策引擎),以及 AI 訓練和服務。

可信賴的 AI

政府資料至關重要,可用於以可信賴的方式訓練私人 AI 模型,進而改善內部服務和公民互動。機密運算技術可支援可信的 AI 架構,並提供機密提示或機密檢索增強生成 (RAG) 訓練,確保公民資料和模型安全無虞。

供應鏈

機密運算可讓機構管理供應鏈和永續發展協作,並分享洞察資料,同時維護資料隱私權。

下表說明供應鏈中機密運算的幾個使用範例。

用途 說明

需求預測和庫存最佳化

透過機密運算,各商家可根據自己的銷售和庫存資料,訓練專屬的需求預測模型。這些模型隨後會安全地匯總為全球模型,更準確且全面地呈現供應鏈的需求模式。

隱私權保護供應商風險評估

參與供應商風險評估的每個機構 (例如買家、金融機構和稽核人員) 都會根據自己的資料訓練風險評估模型。這些模型會匯總成全面且保護隱私權的供應商風險資料,有助於及早發現潛在供應商風險、提升供應鏈韌性,以及在供應商選擇和管理方面做出更明智的決策。

追蹤及減少碳足跡

機密運算提供解決方案,可因應碳足跡追蹤和減量工作中的資料隱私權和透明度挑戰。機密運算可讓機構分享及分析資料,同時隱藏原始資料,協助機構做出明智決策,並採取有效行動,邁向更永續的未來。

數位廣告

數位廣告已不再使用第三方 Cookie,而是改用 Privacy Sandbox 等更安全的替代方案。 Privacy Sandbox 支援重要的廣告用途,同時限制跨網站和應用程式追蹤。Privacy Sandbox 會使用 TEE,確保廣告公司安全地處理使用者資料。

您可以在下列數位廣告用途中使用 TEEs

  • 比對演算法:在資料集中找出對應項目或關係。
  • 歸因:將影響或事件連結回可能原因。
  • 匯總:從原始資料計算摘要或統計資料。

在 Google Cloud上導入機密運算

Google Cloud 包含下列服務,可啟用機密運算:

  • 機密 VM:為使用 VM 的工作負載啟用使用中資料加密功能
  • 機密 GKE:為使用容器的工作負載啟用使用中資料的加密功能
  • 機密 Dataflow:啟用使用中資料的加密功能,進行串流分析和機器學習
  • 機密 Dataproc:啟用資料加密功能,確保資料處理期間的資料安全
  • Confidential Space:為聯合資料分析和機器學習啟用使用中資料的加密功能

這些服務可讓您縮小信任邊界,減少可存取機密資料的資源。舉例來說,在沒有機密運算的環境中,信任邊界包括基礎架構 (硬體、管理程序和主機 OS) 和客體 OS。 Google Cloud Google Cloud 在包含機密運算 (不含 Confidential Space) 的 Google Cloud 環境中,信任邊界僅包含客體 OS 和應用程式。在 Confidential Space 環境中,信任邊界僅限於應用程式及其相關聯的記憶體空間。 Google Cloud下表顯示機密運算和機密空間如何縮減信任邊界。

元素 在信任邊界內,但未使用機密運算 使用機密運算時,資料位於信任界線內 使用 Confidential Space 時,位於信任界線內

雲端堆疊和管理員

BIOS 和韌體

主機 OS 和管理程序

VM 訪客管理員

VM 訪客 OS

是,已測量及認證

應用程式

是,已測量及認證

機密資料

機密空間會在 VM 中建立安全區域,為機密資料和應用程式提供最高等級的隔離和保護。機密空間的主要安全防護優勢包括:

  • 縱深防禦:在現有的機密運算技術基礎上,多添一層安全防護。
  • 減少受攻擊面:將應用程式與訪客 OS 中潛在的安全漏洞隔離。
  • 強化控管:在安全環境中,精細控管存取權和權限。
  • 更值得信賴:提供更高的資料機密性和完整性保障。

機密空間專為處理高度機密的工作負載而設計,尤其適用於受監管的產業,或涉及多方協作且資料隱私權至關重要的情境。

機密分析、AI 和聯合學習的架構參考資料

您可以在 Google Cloud 上實作機密運算,以解決下列用途:

  • 機密分析
  • 機密 AI
  • 機密聯合學習

以下各節將詳細說明這些用途的架構,包括金融和醫療保健業的範例。

醫療機構的機密分析架構

機密分析架構展示了多個醫療機構 (例如供應商、生物製藥和研究機構) 如何共同加速藥物研究。這個架構採用機密運算技術建立數位無塵室,用於執行機密協作分析。

這個架構有以下優點:

  • 更深入的洞察資料:透過協作式分析,醫療機構可取得更廣泛的洞察資料,並縮短新藥上市時間,加快新藥研發速度。
  • 資料隱私權:機密交易資料會保持加密狀態,絕不會向其他參與者或 TEE 揭露,確保資料機密性。
  • 法規遵循:這個架構可協助醫療機構嚴格控管資料,確保符合資料保護法規。
  • 信任和協作:這項架構可讓競爭機構安全地協作,共同努力發掘藥物。

下圖顯示這個架構。

醫療機構的機密數據分析架構圖。

這個架構的主要元件包括:

  • TEE OLAP 匯總伺服器:安全的隔離環境,用於訓練機器學習模型和進行推論。TEE 內的資料和程式碼受到保護,不會遭到未經授權的存取,即使是來自底層作業系統或雲端供應商也一樣。
  • 合作夥伴:每個參與的醫療機構都有本機環境,可做為機構私人資料與 TEE 之間的中介。
  • 特定供應商的加密資料:每個醫療機構都會儲存自己的私人加密患者資料,包括電子健康記錄。在分析過程中,這項資料會保持加密狀態,確保資料隱私權。只有在驗證個別供應商的認證聲明後,資料才會發布至 TEE。
  • 分析用戶端:參與計畫的醫療機構可以對資料執行機密查詢,立即取得洞察資訊。

金融機構專用的機密 AI 架構

這個架構模式示範金融機構如何協同訓練詐欺偵測模型,同時使用詐欺標籤來維護敏感交易資料的機密性。這項架構採用機密運算技術,可實現安全的多方機器學習。

這個架構有以下優點:

  • 提升詐欺偵測能力:協作訓練會使用更大、更多元的資料集,因此能產生更準確有效的詐欺偵測模型。
  • 資料隱私權:機密交易資料會保持加密狀態,絕不會向其他參與者或 TEE 揭露,確保資料機密性。
  • 法規遵循:這項架構可協助金融機構嚴格控管資料,確保符合資料保護法規。
  • 信任與協作:這個架構可讓競爭機構安全地協作,共同防範金融詐欺。

下圖顯示這個架構。

金融機構的機密分析架構圖。

這個架構的主要元件包括:

  • TEE OLAP 匯總伺服器:安全的隔離環境,用於訓練機器學習模型和進行推論。TEE 內的資料和程式碼受到保護,不會遭到未經授權的存取,即使是來自底層作業系統或雲端供應商也一樣。
  • TEE 模型訓練:全球詐欺基礎模型會封裝為容器,以執行機器學習訓練。在 TEE 中,系統會使用所有參與銀行提供的加密資料,進一步訓練全域模型。訓練過程會採用聯合學習或安全多方運算等技術,確保不會洩漏任何原始資料。
  • 協作夥伴:每間參與的金融機構都有本機環境,可做為機構私人資料與 TEE 之間的中介服務。
  • 銀行專屬的加密資料:每間銀行都持有自己的私密加密交易資料,包括詐欺標籤。在整個過程中,這項資料都會保持加密狀態,確保資料隱私。只有在驗證個別銀行的認證聲明後,資料才會發布至 TEE。
  • 模型存放區:預先訓練的詐欺偵測模型,可做為協作訓練的起點。
  • 全球詐欺訓練模型和權重 (以綠線表示):改良的詐欺偵測模型及其學到的權重,會安全地傳回給參與的銀行。然後在本機部署這個強化模型,針對自己的交易偵測詐欺行為。

金融機構專用的機密聯合學習架構

對於重視嚴格資料隱私權和資料主權的客戶,聯邦式學習是進階解決方案。機密聯合學習架構提供安全、可擴展且有效率的方式,將資料用於 AI 應用程式。這種架構會將模型帶到資料儲存位置,而不是將資料集中在單一位置,因此可降低資料外洩相關風險。

這個架構模式說明多個金融機構如何協同訓練詐欺偵測模型,同時保留含有詐欺標籤的敏感交易資料機密性。這項技術會使用聯邦學習和機密運算技術,在不移動訓練資料的情況下,安全地進行多方機器學習。

這個架構有以下優點:

  • 提升資料隱私權和安全性:聯邦學習可確保敏感資料保留在各個網站,進而保護資料隱私權和資料所在地。此外,金融機構還可使用同態加密和差異化隱私權篩選器等隱私權保護技術,進一步保護任何轉移的資料 (例如模型權重)。
  • 提升準確度和多樣性:金融機構可透過不同客戶的各種資料來源進行訓練,開發出強大且可泛用的全球模型,更準確地呈現異質資料集。
  • 可擴充性和網路效率:機構可在邊緣執行訓練,在全球各地擴充聯合學習。此外,機構只需要轉移模型權重,不必轉移整個資料集,因此能有效運用網路資源。

下圖顯示這個架構。

機密聯邦式學習架構圖。

這個架構的主要元件包括:

  • TEE 叢集中的聯合伺服器:安全隔離的環境,聯合學習伺服器會先將初始模型傳送給聯合學習用戶端,藉此協調多個用戶端的協作。用戶端會對本機資料集執行訓練,然後將模型更新傳回聯合學習伺服器進行彙整,形成全域模型。
  • 聯合學習模型存放區:預先訓練的詐欺偵測模型,可做為聯合學習的起點。
  • 本機應用程式推論引擎:執行工作、使用本機資料集執行本機運算和學習作業,並將結果提交回聯邦學習伺服器,以進行安全匯總的應用程式。
  • 本機私人資料:每間銀行都會持有自己的私人加密交易資料,包括詐欺標籤。整個過程都會加密處理這類資料,確保資料隱私權。
  • 安全匯總通訊協定 (以藍色虛線表示):聯邦學習伺服器不需要存取任何個別銀行的更新,即可訓練模型;只需要從隨機子集銀行或網站取得更新向量的元素式加權平均值。使用安全匯總通訊協定計算這些加權平均值,有助於確保伺服器只能得知隨機選取的子集中有一或多個銀行寫入特定字詞,但無法得知是哪些銀行,進而保護聯合學習程序中每位參與者的隱私權。
  • 全球詐欺訓練模型和匯總權重 (以綠線表示):改良的詐欺偵測模型及其學習到的權重會安全地傳回給參與銀行。銀行接著就能在本機部署這個強化模型,偵測自家交易的詐欺行為。

後續步驟

貢獻者