이 문서에서는 안전한 데이터 공동작업, AI 모델 학습, 제휴 학습에 사용할 수 있는 방법을 비롯해 컨피덴셜 컴퓨팅을 간략하게 설명합니다. 이 문서에서는Google Cloud 의 컨피덴셜 컴퓨팅 서비스와 다양한 사용 사례의 아키텍처 참조에 대한 정보도 제공합니다.
이 문서는 기술 임원이 금융 서비스, 의료 등 다양한 산업에서 생성형 AI 및 적용된 AI를 사용한 컨피덴셜 컴퓨팅의 비즈니스 잠재력을 이해하는 데 도움이 됩니다.
컨피덴셜 컴퓨팅이란 무엇인가요?
데이터 보안 관행은 일반적으로 암호화를 통해 저장 데이터와 전송 중인 데이터를 보호하는 데 중점을 두었습니다. 컨피덴셜 컴퓨팅은 활성 사용 중인 데이터의 취약점을 해결하여 새로운 보호 계층을 추가합니다. 이 기술은 민감한 정보가 처리되는 동안에도 기밀로 유지되도록 하여 데이터 보안의 중요한 격차를 해소하는 데 도움이 됩니다.
컨피덴셜 컴퓨팅 환경은 하드웨어 기반 신뢰할 수 있는 실행 환경(TEE)을 사용하여 사용 중인 데이터를 보호합니다. TEE는 프로세서 내의 보안 영역으로, 내부에 로드된 코드와 데이터의 기밀성과 무결성을 보호합니다. TEE는 민감한 작업의 안전한 공간 역할을 하므로 시스템이 손상되더라도 데이터 위험을 완화합니다. 컨피덴셜 컴퓨팅을 사용하면 처리 중에 메모리에서 데이터를 암호화된 상태로 유지할 수 있습니다.
예를 들어 데이터 분석 및 머신러닝에 컨피덴셜 컴퓨팅을 사용하여 다음을 달성할 수 있습니다.
- 향상된 개인 정보 보호: 기본 인프라 또는 계산에 참여하는 당사자에게 데이터를 노출하지 않고 민감한 데이터 세트 (예: 의료 기록 또는 금융 데이터)에 대한 분석을 실행합니다.
- 안전한 공동작업: 서로에게 개별 데이터를 공개하지 않고 머신러닝 모델을 공동으로 학습시키거나 여러 당사자의 결합된 데이터 세트에 대한 분석을 실행합니다. 컨피덴셜 컴퓨팅은 신뢰를 조성하고 특히 의료 및 금융과 같은 분야에서 더 강력하고 일반화 가능한 모델을 개발할 수 있도록 지원합니다.
- 데이터 보안 개선: 데이터 유출 및 무단 액세스 위험을 완화하여 개인 정보 보호법(예: 개인 정보 보호법(GDPR) 또는 건강 보험 이동성 및 책임법(HIPAA))을 준수합니다.
- 신뢰도 및 투명성 향상: 의도한 데이터에 대해 안전한 환경에서 계산이 실행된다는 검증 가능한 증거를 제공하여 이해관계자 간의 신뢰도를 높입니다.
컨피덴셜 컴퓨팅 환경의 작동 방식
컨피덴셜 컴퓨팅 환경에는 다음과 같은 속성이 있습니다.
- 런타임 암호화: 프로세서는 모든 컨피덴셜 컴퓨팅 환경 데이터를 메모리에 암호화된 상태로 유지합니다. 메모리에서 직접 컨피덴셜 컴퓨팅 환경 데이터를 읽으려고 시도하는 시스템 구성요소나 하드웨어 공격자는 암호화된 데이터만 볼 수 있습니다. 마찬가지로 암호화는 메모리에 직접 액세스하여 컨피덴셜 컴퓨팅 환경 데이터가 수정되는 것을 방지합니다.
- 격리: 프로세서가 컨피덴셜 컴퓨팅 환경에 대한 소프트웨어 기반 액세스를 차단합니다. 운영체제와 기타 애플리케이션은 특정 인터페이스를 통해서만 컨피덴셜 컴퓨팅 환경과 통신할 수 있습니다.
증명: 컨피덴셜 컴퓨팅의 맥락에서 증명은 컨피덴셜 컴퓨팅 환경의 신뢰성을 확인합니다. 증명을 사용하면 사용자가 컨피덴셜 컴퓨팅이 데이터를 보호하고 있다는 증거를 확인할 수 있습니다. 증명을 통해 TEE 인스턴스를 인증할 수 있기 때문입니다.
증명 프로세스 중에 TEE를 지원하는 CPU 칩은 인스턴스 측정의 암호화 서명된 보고서 (증명 보고서라고 함)를 생성합니다. 그런 다음 측정값이 증명 서비스로 전송됩니다. 프로세스 격리 증명은 애플리케이션을 인증합니다. VM 격리 증명은 VM, VM을 실행하는 데 사용되는 가상 펌웨어 또는 둘 다를 인증합니다.
데이터 수명 주기 보안: 컨피덴셜 컴퓨팅은 안전한 처리 환경을 만들어 사용 중인 데이터에 하드웨어 지원 보호를 제공합니다.
컨피덴셜 컴퓨팅 기술
컨피덴셜 컴퓨팅을 지원하는 기술은 다음과 같습니다.
- 보안 엔클레이브(애플리케이션 기반 컨피덴셜 컴퓨팅이라고도 함)
- 컨피덴셜 VM 및 GPU(VM 기반 컨피덴셜 컴퓨팅이라고도 함)
Google Cloud 는 컨피덴셜 VM을 사용하여 컨피덴셜 컴퓨팅을 사용 설정합니다. 자세한 내용은 Google Cloud에서 컨피덴셜 컴퓨팅 구현을 참고하세요.
보안 엔클레이브
보안 엔클레이브는 하드웨어 기반 격리를 사용하여 운영체제로부터 코드와 데이터를 격리하거나 신뢰할 수 있는 컴퓨팅 베이스 (TCB) 내에 하이퍼바이저를 배치하여 전체 VM을 격리하는 컴퓨팅 환경입니다. 보안 엔클레이브는 머신과 운영체제에 대한 물리적 액세스 권한이나 루트 액세스 권한이 있는 사용자조차 보안 엔클레이브 메모리의 내용을 알 수 없거나 엔클레이브 내 코드 실행을 조작할 수 없도록 설계되었습니다. 보안 인클레이브의 예로는 Intel Software Guard Extension (SGX)이 있습니다.
컨피덴셜 VM 및 컨피덴셜 GPU
컨피덴셜 VM은 하드웨어 기반 메모리 암호화를 사용하여 데이터와 애플리케이션을 보호하는 VM 유형입니다. 컨피덴셜 VM은 격리 및 증명을 제공하여 보안을 강화합니다. 컨피덴셜 VM 컴퓨팅 기술에는 AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE, Nvidia 컨피덴셜 GPU가 포함됩니다.
컨피덴셜 GPU는 특히 클라우드 및 공유 환경에서 데이터를 보호하고 컴퓨팅을 가속화하는 데 도움이 됩니다. 하드웨어 기반 암호화 및 격리 기술을 사용하여 GPU에서 처리되는 동안 데이터를 보호하므로 클라우드 제공업체나 악의적인 행위자도 민감한 정보에 액세스할 수 없습니다.
컨피덴셜 데이터 분석, AI, 제휴 학습 사용 사례
다음 섹션에서는 다양한 산업의 컨피덴셜 컴퓨팅 사용 사례의 예를 제공합니다.
의료 및 생명과학
컨피덴셜 컴퓨팅을 사용하면 환자의 개인 정보를 보호하면서 조직 간에 안전한 데이터 공유 및 분석이 가능합니다. 컨피덴셜 컴퓨팅을 통해 의료 기관은 공동 연구, 질병 모델링, 신약 개발, 맞춤형 치료 계획에 참여할 수 있습니다.
다음 표에서는 의료 분야에서 컨피덴셜 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.
사용 사례 | 설명 |
---|---|
질병 예측 및 조기 감지 |
병원은 환자 기밀성을 유지하면서 의료 영상 데이터 (예: 여러 병원 또는 병원 지역의 MRI 스캔 또는 CT 스캔)에서 암성 병변을 감지하는 제휴 학습 모델을 학습시킵니다. |
실시간 환자 모니터링 |
의료 서비스 제공업체는 웨어러블 건강 기기 및 모바일 건강 앱의 데이터를 분석하여 실시간 모니터링 및 알림을 제공합니다. 예를 들어 웨어러블 기기는 혈당 수치, 신체 활동, 식습관에 관한 데이터를 수집하여 맞춤 추천과 혈당 변동에 관한 조기 경보를 제공합니다. |
협업 신약 개발 |
제약 회사는 독점 데이터 세트를 기반으로 모델을 학습시켜 신약 개발을 가속화하고, 지식 재산을 보호하면서 협업을 강화합니다. |
금융 서비스
컨피덴셜 컴퓨팅을 사용하면 금융 기관이 더 안전하고 복원력이 뛰어난 금융 시스템을 만들 수 있습니다.
다음 표에서는 금융 서비스에서 컨피덴셜 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.
사용 사례 | 설명 |
---|---|
금융 범죄 |
금융 기관은 고객 개인 정보를 보호하면서 의심스러운 거래에 관한 정보를 공유하여 자금 세탁 방지 (AML) 또는 일반 사기 모델 노력을 공동으로 진행할 수 있습니다. 기관은 컨피덴셜 컴퓨팅을 사용하여 이 공유 데이터를 안전하게 분석하고, 복잡한 자금 세탁 계획을 더 효과적으로 식별하고 방해하도록 모델을 학습시킬 수 있습니다. |
개인 정보를 보호하는 신용 위험 평가 |
대출 기관은 다른 금융 기관 또는 비금융 기관의 데이터를 비롯한 다양한 데이터 소스를 사용하여 신용 위험을 평가할 수 있습니다. 대출 기관은 컨피덴셜 컴퓨팅을 사용하여 승인되지 않은 당사자에게 데이터를 노출하지 않고 이 데이터에 액세스하고 분석할 수 있으므로 데이터 개인 정보 보호를 유지하면서 신용 점수 모델의 정확성을 높일 수 있습니다. |
개인 정보를 보호하는 가격 검색 |
금융계, 특히 장외 시장이나 비유동 자산과 같은 분야에서는 정확한 가격 책정이 중요합니다. 컨피덴셜 컴퓨팅을 사용하면 여러 기관이 서로 민감한 정보를 공개하지 않고도 정확한 가격을 공동으로 계산할 수 있습니다. |
공공 부문
컨피덴셜 컴퓨팅을 사용하면 정부가 데이터에 대한 제어권과 주권을 유지하면서 더 투명하고 효율적이며 효과적인 서비스를 만들 수 있습니다.
다음 표에서는 공공 부문에서 컨피덴셜 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.
사용 사례 | 설명 |
---|---|
디지털 주권 |
컨피덴셜 컴퓨팅을 사용하면 데이터를 처리하는 중에도 항상 암호화됩니다. 하이브리드, 퍼블릭 또는 멀티 클라우드 환경에서 외부 인프라에 호스팅되는 경우에도 데이터를 보호하여 시민 데이터를 안전하게 클라우드로 이전할 수 있습니다. 컨피덴셜 컴퓨팅은 클라우드 제공업체가 암호화 키에 액세스할 수 없도록 사용 중인 데이터에 대한 추가 데이터 제어 및 보호를 통해 디지털 주권 및 디지털 자율성을 지원하고 강화합니다. |
다중 기관 기밀 분석 |
컨피덴셜 컴퓨팅을 사용하면 여러 정부 기관 (예: 보건, 세금, 교육) 또는 여러 지역이나 국가의 여러 정부에서 다자간 데이터 분석을 실행할 수 있습니다. 컨피덴셜 컴퓨팅은 신뢰 경계와 데이터 개인 정보 보호를 보호하는 동시에 데이터 분석 (데이터 손실 방지 (DLP), 대규모 분석, 정책 엔진 사용) 및 AI 학습과 제공을 지원합니다. |
신뢰할 수 있는 AI |
정부 데이터는 매우 중요하며, 신뢰할 수 있는 방식으로 비공개 AI 모델을 학습시켜 내부 서비스와 시민 상호작용을 개선하는 데 사용할 수 있습니다. 컨피덴셜 컴퓨팅을 사용하면 신뢰할 수 있는 AI 프레임워크를 통해 컨피덴셜 프롬프트 또는 컨피덴셜 검색 증강 생성 (RAG) 학습을 통해 시민 데이터와 모델을 비공개로 안전하게 유지할 수 있습니다. |
공급망
컨피덴셜 컴퓨팅을 사용하면 조직에서 데이터 개인 정보 보호를 유지하면서 공급망과 지속 가능성을 관리하고 공동작업하며 유용한 정보를 공유할 수 있습니다.
다음 표에서는 공급망에서 컨피덴셜 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.
사용 사례 | 설명 |
---|---|
수요 예측 및 인벤토리 최적화 |
컨피덴셜 컴퓨팅을 사용하면 각 비즈니스에서 자체 판매 및 재고 데이터를 기반으로 자체 수요 예측 모델을 학습시킵니다. 그런 다음 이러한 모델은 전역 모델로 안전하게 집계되어 공급망 전반의 수요 패턴을 보다 정확하고 전체적으로 파악할 수 있습니다. |
개인 정보 보호 공급업체 위험 평가 |
공급업체 위험 평가에 참여하는 각 조직 (예: 구매자, 금융 기관, 감사자)은 자체 데이터를 기반으로 자체 위험 평가 모델을 학습시킵니다. 이러한 모델은 집계되어 포괄적이고 개인 정보 보호를 준수하는 공급업체 위험 프로필을 생성하므로 잠재적인 공급업체 위험을 조기에 식별하고, 공급망 복원력을 개선하며, 공급업체 선택 및 관리에서 더 나은 의사 결정을 내릴 수 있습니다. |
탄소 발자국 추적 및 감소 |
컨피덴셜 컴퓨팅은 탄소 발자국 추적 및 감축 노력에서 데이터 개인 정보 보호 및 투명성 문제를 해결하는 솔루션을 제공합니다. 컨피덴셜 컴퓨팅을 사용하면 조직이 원시 형태를 공개하지 않고 데이터를 공유하고 분석할 수 있으므로 조직은 정보에 입각한 결정을 내리고 보다 지속 가능한 미래를 향해 효과적인 조치를 취할 수 있습니다. |
디지털 광고
디지털 광고는 서드 파티 쿠키에서 벗어나 개인 정보 보호 샌드박스와 같은 개인 정보 보호에 더 안전한 대안으로 이동하고 있습니다. 개인 정보 보호 샌드박스는 교차 사이트 및 애플리케이션 추적을 제한하면서 중요한 광고 사용 사례를 지원합니다. 개인 정보 보호 샌드박스는 TEE를 사용하여 광고 회사의 사용자 데이터가 안전하게 처리되도록 합니다.
다음 디지털 광고 사용 사례에서 TEEs를 사용할 수 있습니다.
- 매칭 알고리즘: 데이터 세트 내에서 대응 관계 또는 관계를 찾습니다.
- 기여 분석: 효과 또는 이벤트를 가능성 있는 원인에 다시 연결합니다.
- 집계: 원시 데이터에서 요약 또는 통계를 계산합니다.
Google Cloud에서 컨피덴셜 컴퓨팅 구현
Google Cloud 에는 컨피덴셜 컴퓨팅을 사용 설정하는 다음 서비스가 포함되어 있습니다.
- 컨피덴셜 VM: VM을 사용하는 워크로드에 사용 중 데이터 암호화를 사용 설정합니다.
- 컨피덴셜 GKE: 컨테이너를 사용하는 워크로드에 사용 중 데이터 암호화를 사용 설정합니다.
- 기밀 Dataflow: 스트리밍 분석 및 머신러닝에 사용 중 데이터 암호화를 사용 설정합니다.
- Confidential Dataproc: 데이터 처리에 사용 중 데이터 암호화를 사용 설정합니다.
- Confidential Space: 공동 데이터 분석 및 머신러닝에 사용 중 데이터 암호화를 사용 설정합니다.
이러한 서비스를 사용하면 신뢰 경계를 줄여 기밀 데이터에 액세스할 수 있는 리소스 수를 줄일 수 있습니다. 예를 들어 컨피덴셜 컴퓨팅이 없는 Google Cloud환경에서 신뢰 경계에는Google Cloud 인프라 (하드웨어, 하이퍼바이저, 호스트 OS)와 게스트 OS가 포함됩니다. 컨피덴셜 스페이스 없이 컨피덴셜 컴퓨팅이 포함된 Google Cloud 환경에서 신뢰 경계에는 게스트 OS와 애플리케이션만 포함됩니다. Confidential Space가 있는 Google Cloud환경에서 신뢰 경계는 애플리케이션과 연결된 메모리 공간뿐입니다. 다음 표에서는 컨피덴셜 컴퓨팅 및 Confidential Space를 사용하여 신뢰 경계가 어떻게 축소되는지 보여줍니다.
요소 | 컨피덴셜 컴퓨팅을 사용하지 않고 신뢰 경계 내 | 컨피덴셜 컴퓨팅 사용 시 신뢰 경계 내 | Confidential Space 사용 시 신뢰 경계 내 |
---|---|---|---|
클라우드 스택 및 관리자 |
예 |
아니요 |
아니요 |
BIOS 및 펌웨어 |
예 |
아니요 |
아니요 |
호스트 OS 및 하이퍼바이저 |
예 |
아니요 |
아니요 |
VM 게스트 관리자 |
예 |
예 |
아니요 |
VM 게스트 OS |
예 |
예 |
예, 측정 및 증명됨 |
애플리케이션 |
예 |
예 |
예, 측정 및 증명됨 |
기밀 데이터 |
예 |
예 |
예 |
컨피덴셜 스페이스는 VM 내에 보안 영역을 만들어 민감한 데이터와 애플리케이션에 최고 수준의 격리 및 보호를 제공합니다. 컨피덴셜 스페이스의 주요 보안 이점은 다음과 같습니다.
- 심층 방어: 기존 기밀 컴퓨팅 기술에 보안을 한 단계 더 추가합니다.
- 공격에 노출되는 영역 감소: 게스트 OS의 잠재적 취약점으로부터 애플리케이션을 격리합니다.
- 강화된 제어: 보안 환경 내에서 액세스 및 권한을 세부적으로 제어할 수 있습니다.
- 신뢰성 강화: 데이터 기밀성 및 무결성에 대한 보증을 강화합니다.
Confidential Space는 특히 규제 대상 업계 또는 데이터 개인 정보 보호가 가장 중요한 다자간 협업이 포함된 시나리오에서 매우 민감한 워크로드를 처리하도록 설계되었습니다.
컨피덴셜 분석, AI, 제휴 학습을 위한 아키텍처 참조
Google Cloud 에서 컨피덴셜 컴퓨팅을 구현하여 다음 사용 사례를 해결할 수 있습니다.
- 컨피덴셜 분석
- 컨피덴셜 AI
- 컨피덴셜 제휴 학습
다음 섹션에서는 금융 및 의료 비즈니스 사례를 포함하여 이러한 사용 사례의 아키텍처에 대해 자세히 설명합니다.
의료 기관을 위한 컨피덴셜 분석 아키텍처
컨피덴셜 분석 아키텍처는 여러 의료 기관 (예: 제공업체, 제약, 연구 기관)이 협력하여 신약 연구를 가속화하는 방법을 보여줍니다. 이 아키텍처는 컨피덴셜 컴퓨팅 기법을 사용하여 컨피덴셜 협업 분석을 실행하기 위한 디지털 클린룸을 만듭니다.
이 아키텍처에는 다음과 같은 이점이 있습니다.
- 향상된 통계: 공동 분석을 통해 의료 기관은 더 광범위한 통계를 얻고 향상된 신약 개발의 출시 기간을 단축할 수 있습니다.
- 데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에 노출되지 않아 기밀성이 보장됩니다.
- 규정 준수: 이 아키텍처는 의료 기관이 데이터에 대한 엄격한 제어를 유지하여 데이터 보호 규정을 준수하도록 지원합니다.
- 신뢰 및 공동작업: 이 아키텍처는 경쟁 기관 간의 안전한 공동작업을 지원하여 약물 발견을 위한 공동 노력을 촉진합니다.
다음 다이어그램은 이 아키텍처를 보여줍니다.
이 아키텍처의 주요 구성요소는 다음과 같습니다.
- TEE OLAP 집계 서버: 머신러닝 모델 학습 및 추론이 발생하는 안전한 격리 환경입니다. TEE 내의 데이터와 코드는 기본 운영체제나 클라우드 제공업체로부터의 무단 액세스에서도 보호됩니다.
- 협업 파트너: 참여하는 각 의료 기관에는 기관의 비공개 데이터와 TEE 간의 중개자 역할을 하는 로컬 환경이 있습니다.
- 제공업체별 암호화된 데이터: 각 의료 기관은 전자 건강 기록을 포함하는 자체 비공개 암호화 환자 데이터를 저장합니다. 이 데이터는 분석 프로세스 중에 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다. 데이터는 개별 제공자의 증명 클레임을 검증한 후에만 TEE에 공개됩니다.
- 분석 클라이언트: 참여하는 의료 기관은 데이터에 대해 컨피덴셜 쿼리를 실행하여 즉각적인 유용한 정보를 얻을 수 있습니다.
금융 기관을 위한 컨피덴셜 AI 아키텍처
이 아키텍처 패턴은 금융 기관이 사기 라벨을 사용하여 민감한 거래 데이터의 기밀성을 유지하면서 사기 감지 모델을 공동으로 학습시키는 방법을 보여줍니다. 이 아키텍처는 컨피덴셜 컴퓨팅 기법을 사용하여 안전한 멀티 파티 머신러닝을 지원합니다.
이 아키텍처에는 다음과 같은 이점이 있습니다.
- 사기 감지 기능 향상: 공동 학습은 더 크고 다양한 데이터 세트를 사용하여 더 정확하고 효과적인 사기 감지 모델을 만듭니다.
- 데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에 노출되지 않아 기밀성이 보장됩니다.
- 규정 준수: 이 아키텍처는 금융 기관이 데이터를 엄격하게 관리하여 데이터 보호 규정을 준수하도록 지원합니다.
- 신뢰 및 협업: 이 아키텍처는 경쟁 관계에 있는 기관 간의 안전한 협업을 지원하여 금융 사기에 대항하는 공동 노력을 촉진합니다.
다음 다이어그램은 이 아키텍처를 보여줍니다.
이 아키텍처의 주요 구성요소는 다음과 같습니다.
- TEE OLAP 집계 서버: 머신러닝 모델 학습 및 추론이 발생하는 안전한 격리 환경입니다. TEE 내의 데이터와 코드는 기본 운영체제나 클라우드 제공업체로부터의 무단 액세스에서도 보호됩니다.
- TEE 모델 학습: 전역 사기 기본 모델은 ML 학습을 실행하기 위해 컨테이너로 패키징됩니다. TEE 내에서 전역 모델은 모든 참여 은행의 암호화된 데이터를 사용하여 추가로 학습됩니다. 학습 프로세스에서는 제휴 학습 또는 보안 다자간 연산과 같은 기술을 사용하여 원시 데이터가 노출되지 않도록 합니다.
- 협력 파트너: 참여하는 각 금융 기관에는 기관의 비공개 데이터와 TEE 간의 중개자 역할을 하는 로컬 환경이 있습니다.
- 은행별 암호화된 데이터: 각 은행은 사기 라벨이 포함된 자체 비공개 암호화 거래 데이터를 보유합니다. 이 데이터는 전체 프로세스에서 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다. 데이터는 개별 은행의 증명 클레임을 검증한 후에만 TEE에 출시됩니다.
- 모델 저장소: 공동 학습의 시작점으로 사용되는 사전 학습된 사기 감지 모델입니다.
- 전역 사기 학습 모델 및 가중치 (녹색 선으로 표시): 개선된 사기 감지 모델과 학습된 가중치가 참여 은행과 안전하게 교환됩니다. 그런 다음 이 향상된 모델을 로컬에 배포하여 자체 거래에서 사기를 감지할 수 있습니다.
금융 기관을 위한 기밀 제휴 학습 아키텍처
제휴 학습은 엄격한 데이터 개인 정보 보호 및 데이터 주권을 중시하는 고객을 위한 고급 솔루션을 제공합니다. 컨피덴셜 연합 학습 아키텍처는 AI 애플리케이션에 데이터를 사용할 수 있는 안전하고 확장 가능하며 효율적인 방법을 제공합니다. 이 아키텍처는 데이터를 단일 위치에 중앙 집중화하는 대신 데이터가 저장된 위치로 모델을 가져오므로 데이터 유출과 관련된 위험을 줄입니다.
이 아키텍처 패턴은 여러 금융 기관이 사기 라벨이 지정된 민감한 거래 데이터의 기밀성을 유지하면서 공동으로 사기 감지 모델을 학습하는 방법을 보여줍니다. 컨피덴셜 컴퓨팅 기술과 제휴 학습을 사용하여 학습 데이터 이동 없이 안전한 다자간 머신러닝을 지원합니다.
이 아키텍처에는 다음과 같은 이점이 있습니다.
- 향상된 데이터 개인 정보 보호 및 보안: 연합 학습을 사용하면 민감한 데이터가 각 사이트에 유지되므로 데이터 개인 정보 보호 및 데이터 지역성이 지원됩니다. 또한 금융 기관은 동형 암호화 및 개인 정보 차등 보호 필터와 같은 개인 정보 보호 기법을 사용하여 전송된 데이터 (예: 모델 가중치)를 추가로 보호할 수 있습니다.
- 정확성 및 다양성 개선: 금융 기관은 다양한 고객의 다양한 데이터 소스를 사용하여 학습함으로써 이질적인 데이터 세트를 더 잘 나타내는 강력하고 일반화 가능한 전역 모델을 개발할 수 있습니다.
- 확장성 및 네트워크 효율성: 기관은 에지에서 학습을 실행할 수 있으므로 전 세계에서 제휴 학습을 확장할 수 있습니다. 또한 기관은 전체 데이터 세트가 아닌 모델 가중치만 전송하면 되므로 네트워크 리소스를 효율적으로 사용할 수 있습니다.
다음 다이어그램은 이 아키텍처를 보여줍니다.
이 아키텍처의 주요 구성요소는 다음과 같습니다.
- TEE 클러스터의 제휴 서버: 제휴 학습 서버가 먼저 제휴 학습 클라이언트에 초기 모델을 전송하여 여러 클라이언트의 공동작업을 오케스트레이션하는 안전한 격리된 환경입니다. 클라이언트는 로컬 데이터 세트에서 학습을 실행한 후 모델 업데이트를 제휴 학습 서버로 다시 전송하여 집계하고 전역 모델을 형성합니다.
- 제휴 학습 모델 저장소: 제휴 학습의 시작점으로 사용되는 사전 학습된 사기 감지 모델입니다.
- 로컬 애플리케이션 추론 엔진: 작업을 실행하고, 로컬 데이터 세트로 로컬 연산 및 학습을 실행하고, 보안 집계를 위해 결과를 제휴 학습 서버에 다시 제출하는 애플리케이션입니다.
- 로컬 비공개 데이터: 각 은행은 사기 라벨이 포함된 자체 비공개 암호화 거래 데이터를 보유합니다. 이 데이터는 전체 프로세스에서 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다.
- 안전한 집계 프로토콜 (파란색 점선으로 표시): 연합 학습 서버는 모델을 학습시키기 위해 개별 은행의 업데이트에 액세스할 필요가 없습니다. 은행 또는 사이트의 무작위 하위 집합에서 가져온 업데이트 벡터의 요소별 가중 평균만 필요합니다. 보안 집계 프로토콜을 사용하여 이러한 가중 평균을 계산하면 서버가 무작위로 선택된 이 하위 집합의 하나 이상의 은행이 특정 단어를 작성했다는 것만 학습할 수 있고 어떤 은행인지는 학습할 수 없으므로 제휴 학습 프로세스에 참여하는 각 사용자의 개인 정보 보호가 유지됩니다.
- 전역 사기 학습 모델 및 집계된 가중치 (녹색 선으로 표시): 개선된 사기 감지 모델과 학습된 가중치가 참여 은행에 안전하게 다시 전송됩니다. 그러면 은행은 자체 거래에서 사기를 감지하기 위해 이 향상된 모델을 로컬로 배포할 수 있습니다.
다음 단계
컨피덴셜 컴퓨팅의 현재와 미래를 읽어보세요.
Enabling secure multi-party collaboration with confidential computing by Keith Moyer (Google) | OC3 (YouTube)를 참고하세요.
컨피덴셜 컴퓨팅의 새로운 기능을 확인하세요. (YouTube)
환경에서 컨피덴셜 컴퓨팅 및 Confidential Space를 구현합니다.
Google Cloud의 컨피덴셜 컴퓨팅 기본사항에 대해 자세히 알아보세요.
더욱 비공개적인 생성형 AI 사용 설정에 대해 자세히 알아보세요.
참여자
- 아룬 산타나고팔란 | 기술 및 인큐베이션 부문 책임자, Google Cloud
- 파블로 로드리게스 | CTO실 기술 이사
- 비니트 데이브 | 기술 및 인큐베이션 부문 책임자, Google Cloud