Computação confidencial para análise de dados, IA e aprendizado federado

Last reviewed 2024-12-20 UTC

Este documento oferece uma visão geral da computação confidencial, incluindo como ela pode ser usada para colaboração segura de dados, treinamento de modelo de IA e aprendizado federado. O documento também fornece informações sobre os serviços de Computação confidencial em Google Cloud e referências de arquitetura para diferentes casos de uso.

Este documento foi criado para ajudar executivos de tecnologia a entender o potencial de negócios da computação confidencial com IA generativa e aplicada em vários setores, incluindo serviços financeiros e saúde.

O que é computação confidencial?

As práticas de segurança de dados geralmente se concentram na proteção de dados em repouso e em trânsito por criptografia. A Computação confidencial adiciona uma nova camada de proteção ao resolver a vulnerabilidade dos dados durante o uso ativo. Essa tecnologia garante que as informações sensíveis permaneçam confidenciais mesmo durante o processamento, ajudando a fechar uma lacuna crítica na segurança de dados.

Um ambiente de computação confidencial implementa a proteção de dados em uso com um ambiente de execução confiável (TEE) baseado em hardware. Um TEE é uma área segura em um processador que protege a confidencialidade e a integridade do código e dos dados carregados nele. O TEE funciona como uma sala segura para operações sensíveis, o que reduz o risco para os dados, mesmo que o sistema seja comprometido. Com a computação confidencial, os dados podem ser mantidos criptografados na memória durante o processamento.

Por exemplo, é possível usar a computação confidencial para análise de dados e machine learning para ajudar a alcançar o seguinte:

  • Privacidade aprimorada:faça análises em conjuntos de dados sensíveis (por exemplo, registros médicos ou dados financeiros) sem expor os dados à infraestrutura subjacente ou às partes envolvidas na computação.
  • Colaboração segura:treine modelos de aprendizado de máquina ou faça análises nos conjuntos de dados combinados de várias partes sem revelar dados individuais umas às outras. A computação confidencial promove a confiança e permite o desenvolvimento de modelos mais robustos e generalizáveis, principalmente em setores como saúde e finanças.
  • Segurança de dados aprimorada:reduza o risco de violações de dados e acesso não autorizado, garantindo a conformidade com regulamentações de proteção de dados, como o Regulamento Geral de Proteção de Dados (GDPR) ou a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA).
  • Maior confiança e transparência:forneça provas verificáveis de que os cálculos são realizados nos dados pretendidos e em um ambiente seguro, aumentando a confiança entre as partes interessadas.

Como funciona um ambiente de computação confidencial

Os ambientes de computação confidencial têm as seguintes propriedades:

  • Criptografia de tempo de execução:o processador mantém todos os dados do ambiente de computação confidencial criptografados na memória. Qualquer componente do sistema ou invasor de hardware que tente ler dados do ambiente de computação confidencial diretamente da memória só verá dados criptografados. Da mesma forma, a criptografia impede a modificação de dados do ambiente de computação confidencial por acesso direto à memória.
  • Isolamento:o processador bloqueia o acesso baseado em software ao ambiente de computação confidencial. O sistema operacional e outros aplicativos só podem se comunicar com o ambiente de computação confidencial por interfaces específicas.
  • Atestado:no contexto da computação confidencial, o atestado verifica a confiabilidade do ambiente de computação confidencial. Com o atestado, os usuários podem conferir as evidências de que a Computação confidencial está protegendo os dados deles, já que o atestado permite autenticar a instância do TEE.

    Durante o processo de atestado, o chip da CPU que oferece suporte ao TEE produz um relatório assinado criptograficamente (conhecido como relatório de atestado) da medição da instância. Em seguida, a medição é enviada a um serviço de atestado. Uma declaração para isolamento de processos autentica um aplicativo. Uma declaração de isolamento de VM autentica uma VM, o firmware virtual usado para iniciar a VM ou ambos.

  • Segurança do ciclo de vida dos dados:a computação confidencial cria um ambiente de processamento seguro para fornecer proteção baseada em hardware para dados em uso.

Tecnologia de computação confidencial

As seguintes tecnologias ativam a computação confidencial:

  • Enclaves seguros, também conhecidos como computação confidencial baseada em aplicativos
  • VMs confidenciais e GPUs, também conhecidas como computação confidencial baseada em VM

OGoogle Cloud usa a VM confidencial para ativar a computação confidencial. Para mais informações, consulte Implementar a computação confidencial em Google Cloud.

Enclaves seguros

Um enclave seguro é um ambiente de computação que fornece isolamento para código e dados do sistema operacional usando isolamento baseado em hardware ou isolando uma VM inteira ao colocar o hipervisor na base de computação confiável (TCB). Os enclaves seguros são projetados para garantir que nem mesmo usuários com acesso físico ou root às máquinas e ao sistema operacional possam saber o conteúdo da memória do enclave seguro ou adulterar a execução do código dentro dele. Um exemplo de enclave seguro é a extensão Intel Software Guard (SGX).

VMs confidenciais e GPUs confidenciais

Uma VM confidencial é um tipo de VM que usa criptografia de memória baseada em hardware para ajudar a proteger dados e aplicativos. A VM confidencial oferece isolamento e atestado para melhorar a segurança. As tecnologias de computação de VMs confidenciais incluem AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE e GPU confidencial da Nvidia.

As GPUs confidenciais ajudam a proteger dados e acelerar a computação, principalmente em ambientes compartilhados e de nuvem. Elas usam técnicas de criptografia e isolamento baseadas em hardware para proteger os dados enquanto são processados na GPU, garantindo que nem mesmo o provedor de nuvem ou usuários maliciosos possam acessar informações sensíveis.

Casos de uso de análise de dados confidenciais, IA e aprendizado federado

As seções a seguir fornecem exemplos de casos de uso da computação confidencial para vários setores.

Saúde e ciências biológicas

A computação confidencial permite o compartilhamento e a análise seguros de dados entre organizações, preservando a privacidade dos pacientes. A computação confidencial permite que organizações de saúde participem de pesquisas colaborativas, modelagem de doenças, descoberta de medicamentos e planos de tratamento personalizados.

A tabela a seguir descreve alguns exemplos de usos da computação confidencial na área da saúde.

Caso de uso Descrição

Previsão e detecção precoce de doenças

Os hospitais treinam um modelo de aprendizado federado para detectar lesões cancerosas em dados de imagens médicas (por exemplo, ressonâncias magnéticas ou tomografias computadorizadas em vários hospitais ou regiões hospitalares) mantendo a confidencialidade dos pacientes.

Monitoramento de pacientes em tempo real

Os provedores de serviços de saúde analisam dados de dispositivos de saúde vestíveis e apps de saúde móvel para monitoramento e alertas em tempo real. Por exemplo, dispositivos vestíveis coletam dados sobre níveis de glicose, atividade física e hábitos alimentares para fornecer recomendações personalizadas e alertas precoces sobre variações de açúcar no sangue.

Descoberta colaborativa de medicamentos

As empresas farmacêuticas treinam modelos em conjuntos de dados proprietários para acelerar a descoberta de medicamentos, melhorando a colaboração e protegendo a propriedade intelectual.

Serviços financeiros

Com a computação confidencial, as instituições financeiras podem criar um sistema financeiro mais seguro e resiliente.

A tabela a seguir descreve alguns exemplos de usos da computação confidencial em serviços financeiros.

Caso de uso Descrição

Crimes financeiros

As instituições financeiras podem colaborar em iniciativas de combate à lavagem de dinheiro (AML) ou de modelos gerais de fraude compartilhando informações sobre transações suspeitas e protegendo a privacidade dos clientes. Usando a computação confidencial, as instituições podem analisar esses dados compartilhados de maneira segura e treinar os modelos para identificar e interromper esquemas complexos de lavagem de dinheiro com mais eficiência.

Avaliação de risco de crédito que preserva a privacidade

Os credores podem avaliar o risco de crédito usando uma variedade maior de fontes de dados, incluindo dados de outras instituições financeiras ou até mesmo entidades não financeiras. Com a computação confidencial, os credores podem acessar e analisar esses dados sem expô-los a terceiros não autorizados, aumentando a precisão dos modelos de pontuação de crédito e mantendo a privacidade dos dados.

Descoberta de preços que preserva a privacidade

No mundo financeiro, principalmente em áreas como mercados de balcão ou ativos ilíquidos, a precificação precisa é crucial. A computação confidencial permite que várias instituições calculem preços precisos de forma colaborativa, sem revelar dados sensíveis umas às outras.

Setor público

A computação confidencial permite que os governos criem serviços mais transparentes, eficientes e eficazes, mantendo o controle e a soberania dos dados.

A tabela a seguir descreve alguns exemplos de usos da computação confidencial no setor público.

Caso de uso Descrição

Soberania digital

A Computação confidencial garante que os dados estejam sempre criptografados, mesmo durante o processamento. Ele permite migrações seguras para a nuvem de dados de cidadãos, com proteção mesmo quando hospedados em infraestrutura externa, em ambientes híbridos, públicos ou de várias nuvens. A Computação Confidencial apoia e capacita a soberania e a autonomia digitais, com mais controle e proteção para dados em uso. Assim, as chaves de criptografia não ficam acessíveis ao provedor de nuvem.

Análise confidencial de várias agências

A computação confidencial permite a análise de dados de várias partes em várias agências governamentais (por exemplo, saúde, tributos e educação) ou em vários governos em diferentes regiões ou países. A computação confidencial ajuda a garantir que os limites de confiança e a privacidade de dados sejam protegidos, além de permitir a análise de dados (usando prevenção contra perda de dados (DLP), análise em grande escala e mecanismos de política) e o treinamento e a veiculação de IA.

IA confiável

Os dados governamentais são essenciais e podem ser usados para treinar modelos particulares de IA de maneira confiável, melhorando os serviços internos e as interações com os cidadãos. A computação confidencial permite estruturas de IA confiáveis, com comandos ou treinamento de geração aumentada por recuperação (RAG, na sigla em inglês) confidenciais para manter os dados e modelos de cidadãos privados e seguros.

Cadeia de suprimentos

Com a Computação confidencial, as organizações podem gerenciar a cadeia de suprimentos e colaborar com a sustentabilidade, além de compartilhar insights e manter a privacidade dos dados.

A tabela a seguir descreve alguns exemplos de usos da computação confidencial em cadeias de suprimentos.

Caso de uso Descrição

Previsão de demanda e otimização de inventário

Com a computação confidencial, cada empresa treina o próprio modelo de previsão de demanda com base nos dados de vendas e inventário. Em seguida, esses modelos são agregados de forma segura em um modelo global, fornecendo uma visão mais precisa e abrangente dos padrões de demanda em toda a cadeia de suprimentos.

Avaliação de risco do fornecedor que preserva a privacidade

Cada organização envolvida na avaliação de risco do fornecedor (por exemplo, compradores, instituições financeiras e auditores) treina o próprio modelo de avaliação de risco com os próprios dados. Esses modelos são agregados para criar um perfil de risco abrangente e que preserva a privacidade do fornecedor. Assim, é possível identificar com antecedência os riscos potenciais, melhorar a resiliência da cadeia de suprimentos e tomar decisões melhores na seleção e no gerenciamento de fornecedores.

Rastreamento e redução da pegada de carbono

A computação confidencial oferece uma solução para enfrentar os desafios da privacidade e da transparência de dados no rastreamento e na redução da pegada de carbono. A computação confidencial permite que as organizações compartilhem e analisem dados sem revelar a forma bruta deles, o que capacita as empresas a tomar decisões informadas e medidas eficazes para um futuro mais sustentável.

Publicidade digital

A publicidade digital deixou de usar cookies de terceiros e passou a usar alternativas mais seguras para a privacidade, como o Sandbox de privacidade. O Sandbox de privacidade oferece suporte a casos de uso importantes de publicidade e limita o rastreamento entre sites e aplicativos. O Sandbox de privacidade usa TEEs para garantir o processamento seguro dos dados dos usuários por empresas de publicidade.

Você pode usar TEEs nos seguintes casos de uso de publicidade digital:

  • Algoritmos de correspondência:encontrar correspondências ou relações em conjuntos de dados.
  • Atribuição:vincular efeitos ou eventos às causas prováveis.
  • Agregação:cálculo de resumos ou estatísticas com base nos dados brutos.

Implementar a computação confidencial em Google Cloud

OGoogle Cloud inclui os seguintes serviços que ativam a computação confidencial:

  • VM confidencial:ative a criptografia de dados em uso para cargas de trabalho que usam VMs.
  • GKE confidencial:ative a criptografia de dados em uso para cargas de trabalho que usam contêineres.
  • Dataflow confidencial:permite a criptografia de dados em uso para análise de streaming e machine learning.
  • Dataproc confidencial:ative a criptografia de dados em uso para o processamento de dados.
  • Confidential Space:permite a criptografia de dados em uso para análise conjunta de dados e machine learning.

Com esses serviços, você reduz o limite de confiança para que menos recursos tenham acesso aos seus dados confidenciais. Por exemplo, em um ambiente Google Cloudsem computação confidencial, o limite de confiança inclui a infraestruturaGoogle Cloud (hardware, hipervisor e SO do host) e o SO convidado. Em um ambiente Google Cloud que inclui computação confidencial (sem o Confidential Space), o limite de confiança inclui apenas o SO convidado e o aplicativo. Em um ambiente Google Cloud com o Confidential Space, o limite de confiança é apenas o aplicativo e o espaço de memória associado. A tabela a seguir mostra como o limite de confiança é reduzido com o Computação confidencial e o Confidential Space.

Elementos Dentro do limite de confiança sem usar a computação confidencial Dentro do limite de confiança ao usar a Computação confidencial Dentro do limite de confiança ao usar o Confidential Space

Administradores e pilha de nuvem

Sim

Não

Não

BIOS e firmware

Sim

Não

Não

SO do host e hipervisor

Sim

Não

Não

Administrador de convidado da VM

Sim

Sim

Não

SO convidado da VM

Sim

Sim

Sim, medido e atestado

Aplicativos

Sim

Sim

Sim, medido e atestado

Dados confidenciais

Sim

Sim

Sim

O Confidential Space cria uma área segura em uma VM para oferecer o mais alto nível de isolamento e proteção para dados e aplicativos sensíveis. Os principais benefícios de segurança do Confidential Space incluem:

  • Defesa em profundidade:adiciona uma camada extra de segurança às tecnologias de computação confidencial atuais.
  • Superfície de ataque reduzida:isola aplicativos de possíveis vulnerabilidades no SO convidado.
  • Controle aprimorado:oferece controle granular sobre acesso e permissões no ambiente seguro.
  • Maior confiança:oferece mais garantia de confidencialidade e integridade dos dados.

O Confidential Space foi criado para lidar com cargas de trabalho altamente sensíveis, especialmente em setores regulamentados ou cenários que envolvem colaborações entre várias partes em que a privacidade dos dados é fundamental.

Referências de arquitetura para análise confidencial, IA e aprendizado federado

É possível implementar a computação confidencial no Google Cloud para resolver os seguintes casos de uso:

  • Análise de dados confidenciais
  • IA confidencial
  • Aprendizado federado confidencial

As seções a seguir fornecem mais informações sobre a arquitetura desses casos de uso, incluindo exemplos para empresas financeiras e de saúde.

Arquitetura de análise confidencial para instituições de saúde

A arquitetura de análise confidencial demonstra como várias instituições de saúde (como provedores, biofarmacêuticas e instituições de pesquisa) podem trabalhar juntas para acelerar a pesquisa de medicamentos. Essa arquitetura usa técnicas de computação confidencial para criar uma sala limpa digital e executar análises colaborativas confidenciais.

Essa arquitetura tem os seguintes benefícios:

  • Insights aprimorados:a análise colaborativa permite que as organizações de saúde tenham insights mais amplos e diminuam o tempo de lançamento de uma descoberta de medicamentos aprimorada.
  • Privacidade de dados:os dados sensíveis de transações permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Conformidade regulatória:a arquitetura ajuda as instituições de saúde a obedecer às regulamentações de proteção de dados, mantendo um controle rígido sobre os dados.
  • Confiança e colaboração:a arquitetura permite a colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para descobrir medicamentos.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições de saúde.

Os principais componentes dessa arquitetura incluem:

  • Servidor de agregação OLAP do TEE:um ambiente seguro e isolado em que ocorrem o treinamento e a inferência do modelo de machine learning. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo do sistema operacional ou provedor de nuvem subjacente.
  • Parceiros de colaboração:cada instituição de saúde participante tem um ambiente local que atua como intermediário entre os dados particulares da instituição e o TEE.
  • Dados criptografados específicos do provedor:cada instituição de saúde armazena os próprios dados de pacientes criptografados e particulares, que incluem prontuários eletrônicos. Esses dados permanecem criptografados durante o processo de análise, o que garante a privacidade. Os dados só são liberados para o TEE depois que as declarações de atestado dos provedores individuais são validadas.
  • Cliente do Analytics:as instituições de saúde participantes podem executar consultas confidenciais nos dados para gerar insights imediatos.

Arquitetura de IA confidencial para instituições financeiras

Este padrão de arquitetura demonstra como as instituições financeiras podem treinar de forma colaborativa um modelo de detecção de fraudes usando rótulos de fraude para preservar a confidencialidade dos dados de transações sensíveis. A arquitetura usa técnicas de computação confidencial para permitir o aprendizado de máquina seguro e multipartidário.

Essa arquitetura tem os seguintes benefícios:

  • Detecção de fraude aprimorada:o treinamento colaborativo usa um conjunto de dados maior e mais diversificado, resultando em um modelo de detecção de fraude mais preciso e eficaz.
  • Privacidade de dados:os dados sensíveis de transações permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Compliance regulatório:a arquitetura ajuda as instituições financeiras a obedecer às regulamentações de proteção de dados, mantendo um controle rígido sobre os dados.
  • Confiança e colaboração:essa arquitetura permite a colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para combater fraudes financeiras.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições financeiras.

Os principais componentes dessa arquitetura incluem:

  • Servidor de agregação OLAP do TEE:um ambiente seguro e isolado em que ocorrem o treinamento e a inferência do modelo de machine learning. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo do sistema operacional ou provedor de nuvem subjacente.
  • Treinamento do treinamento de modelo:o modelo de base global de fraude é empacotado como contêineres para executar o treinamento de ML. Dentro do TEE, o modelo global é treinado ainda mais usando os dados criptografados de todos os bancos participantes. O processo de treinamento emprega técnicas como aprendizado federado ou computação multipartidária segura para garantir que nenhum dado bruto seja exposto.
  • Parceiros colaboradores:cada instituição financeira participante tem um ambiente local que atua como intermediário entre os dados particulares da instituição e o TEE.
  • Dados criptografados específicos do banco:cada banco tem seus próprios dados de transação criptografados e particulares, que incluem rótulos de fraude. Esses dados permanecem criptografados durante todo o processo, garantindo a privacidade. Os dados só são liberados para o TEE depois que as declarações de atestado de bancos individuais são validadas.
  • Repositório de modelos:um modelo de detecção de fraude pré-treinado que serve como ponto de partida para o treinamento colaborativo.
  • Modelo e ponderações globais de fraude treinados (simbolizados pela linha verde): o modelo aprimorado de detecção de fraudes, junto com as ponderações aprendidas, é trocado de volta com segurança para os bancos participantes. Em seguida, eles podem implantar esse modelo aprimorado localmente para detecção de fraudes nas próprias transações.

Arquitetura de aprendizado federado confidencial para instituições financeiras

O aprendizado federado oferece uma solução avançada para clientes que valorizam a privacidade e a soberania de dados. A arquitetura de aprendizado federado confidencial oferece uma maneira segura, escalonável e eficiente de usar dados para aplicativos de IA. Essa arquitetura traz os modelos para o local em que os dados são armazenados, em vez de centralizar os dados em um único local, reduzindo assim os riscos associados ao vazamento de dados.

Esse padrão arquitetônico demonstra como várias instituições financeiras podem treinar de forma colaborativa um modelo de detecção de fraudes e preservar a confidencialidade dos dados sensíveis de transações com rótulos de fraude. Ele usa o aprendizado federado com técnicas de computação confidencial para permitir o aprendizado de máquina seguro e de várias partes sem movimentação de dados de treinamento.

Essa arquitetura tem os seguintes benefícios:

  • Maior privacidade e segurança de dados:o aprendizado federado permite a privacidade e a localidade dos dados, garantindo que as informações sensíveis permaneçam em cada site. Além disso, as instituições financeiras podem usar técnicas de preservação de privacidade, como criptografia homomórfica e filtros de privacidade diferencial, para proteger ainda mais os dados transferidos (como os pesos do modelo).
  • Melhoria na precisão e na diversidade:ao treinar com várias fontes de dados de diferentes clientes, as instituições financeiras podem desenvolver um modelo global robusto e generalizável para representar melhor conjuntos de dados heterogêneos.
  • Escalabilidade e eficiência da rede:com a capacidade de realizar o treinamento na borda, as instituições podem dimensionar o aprendizado federado no mundo todo. Além disso, as instituições só precisam transferir os pesos do modelo em vez de conjuntos de dados inteiros, o que permite o uso eficiente dos recursos de rede.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de aprendizado federado confidencial.

Os principais componentes dessa arquitetura incluem:

  • Servidor federado no cluster TEE:um ambiente seguro e isolado em que o servidor de aprendizado federado organiza a colaboração de vários clientes. Primeiro, ele envia um modelo inicial para os clientes de aprendizado federado. Os clientes realizam o treinamento nos conjuntos de dados locais e enviam as atualizações do modelo de volta ao servidor de aprendizado federado para agregação e formação de um modelo global.
  • Repositório de modelos de aprendizado federado:um modelo de detecção de fraude pré-treinado que serve como ponto de partida para o aprendizado federado.
  • Mecanismo de inferência de aplicativo local:um aplicativo que executa tarefas, realiza computação e aprendizado locais com conjuntos de dados locais e envia resultados de volta ao servidor de aprendizado federado para agregação segura.
  • Dados particulares locais:cada banco tem seus próprios dados de transações particulares e criptografados, que incluem rótulos de fraude. Esses dados permanecem criptografados durante todo o processo, garantindo a privacidade.
  • Protocolo de agregação segura (simbolizado pela linha azul pontilhada): o servidor de aprendizado federado não precisa acessar a atualização de nenhum banco individual para treinar o modelo. Ele exige apenas as médias ponderadas elemento a elemento dos vetores de atualização, extraídas de um subconjunto aleatório de bancos ou sites. Usar um protocolo de agregação segura para calcular essas médias ponderadas ajuda a garantir que o servidor aprenda apenas que um ou mais bancos nesse subconjunto selecionado aleatoriamente escreveram uma determinada palavra, mas não quais bancos. Assim, a privacidade de cada participante no processo de aprendizado federado é preservada.
  • Modelo global treinado para detecção de fraudes e pesos agregados (simbolizados pela linha verde): o modelo aprimorado de detecção de fraudes, junto com os pesos aprendidos, é enviado de volta aos bancos participantes de forma segura. Em seguida, os bancos podem implantar esse modelo aprimorado localmente para detecção de fraudes nas próprias transações.

A seguir

Colaboradores