Computação confidencial para análise de dados, IA e aprendizado federado

Neste documento, apresentamos uma visão geral da computação confidencial, incluindo como usá-la para colaboração de dados segura, treinamento de modelo de IA e aprendizado federado. O documento também fornece informações sobre os serviços de Computação confidencial em Google Cloud e referências de arquitetura para diferentes casos de uso.

O objetivo deste documento é ajudar os executivos de tecnologia a entender o potencial comercial da computação confidencial com IA generativa e IA aplicada em vários setores, incluindo serviços financeiros e assistência médica.

O que é computação confidencial?

As práticas de segurança de dados se concentram convencionalmente na proteção de dados em repouso e em trânsito por meio de criptografia. A computação confidencial adiciona uma nova camada de proteção ao abordar a vulnerabilidade dos dados durante o uso ativo. Essa tecnologia garante que as informações sensíveis permaneçam confidenciais, mesmo durante o processamento, ajudando a preencher uma lacuna crítica na segurança de dados.

Um ambiente de computação confidencial implementa a proteção dos dados em uso com um ambiente de execução confiável (TEE) baseado em hardware. O TEE é uma área segura dentro de um processador que protege a confidencialidade e a integridade do código e dos dados carregados dentro dele. O TEE atua como um ambiente seguro para operações sensíveis, o que reduz o risco dos dados, mesmo que o sistema esteja comprometido. Com a computação confidencial, os dados podem ser mantidos criptografados na memória durante o processamento.

Por exemplo, é possível usar a computação confidencial para análise de dados e machine learning para ajudar a:

  • Privacidade aprimorada:realize análises em conjuntos de dados confidenciais (por exemplo, registros médicos ou dados financeiros) sem expor os dados à infraestrutura subjacente ou às partes envolvidas no cálculo.
  • Colaboração segura: treine modelos de machine learning em conjunto ou execute análises nos conjuntos de dados combinados de várias partes sem revelar dados individuais umas às outras. A computação confidencial promove confiança e permite o desenvolvimento de modelos mais robustos e generalizáveis, especialmente em setores como saúde e finanças.
  • Maior segurança de dados:reduza o risco de violações de dados e acesso não autorizado, garantindo a conformidade com regulamentações de proteção de dados, como o Regulamento geral de proteção de dados (GDPR) ou a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA).
  • Mais confiança e transparência: forneça provas verificáveis de que os cálculos são realizados nos dados pretendidos e em um ambiente seguro, aumentando a confiança entre as partes interessadas.

Como funciona um ambiente de computação confidencial

Os ambientes de computação confidencial têm as seguintes propriedades:

  • Criptografia do ambiente de execução:o processador mantém todos os dados confidenciais do ambiente de computação criptografados na memória. Qualquer ataque de hardware ou componente do sistema que tente ler dados confidenciais do ambiente de computação diretamente da memória só tem acesso a dados criptografados. Da mesma forma, a criptografia impede a modificação de dados confidenciais do ambiente de computação por meio do acesso direto à memória.
  • Isolamento:o processador bloqueia o acesso baseado em software ao ambiente de computação confidencial. O sistema operacional e outros aplicativos só podem se comunicar com o ambiente de computação confidencial por interfaces específicas.
  • Atestado:no contexto da computação confidencial, o atestado verifica a confiabilidade do ambiente de computação confidencial. Usando o atestado, os usuários podem ver evidências de que a computação confidencial está protegendo os dados deles, porque o atestado permite autenticar a instância do TEE.

    Durante o processo de atestado, o chip de CPU com suporte ao TEE produz um relatório assinado criptograficamente (conhecido como relatório de atestado) da medição da instância. A medição é enviada para um serviço de atestado. Um atestado para isolamento de processo autentica um aplicativo. Um atestado para isolamento de VM autentica uma VM, o firmware virtual usado para iniciá-la ou ambos.

  • Segurança do ciclo de vida dos dados:a computação confidencial cria um ambiente de processamento seguro para fornecer proteção por hardware para os dados em uso.

Tecnologia de Computação confidencial

As seguintes tecnologias permitem a computação confidencial:

  • Enclaves seguros, também conhecidos como computação confidencial baseada em aplicativos
  • VMs e GPUs confidenciais, também conhecidas como computação confidencial baseada em VM

Google Cloud usa uma VM confidencial para ativar a computação confidencial. Para mais informações, consulte Implementar computação confidencial em Google Cloud.

Enclaves seguros

Um enclave seguro é um ambiente de computação que fornece isolamento de código e dados do sistema operacional usando isolamento baseado em hardware ou isolando uma VM inteira ao colocar o hipervisor dentro da base de computação confiável (TCB). Enclaves seguros são projetados para garantir que mesmo usuários com acesso físico ou raiz às máquinas e ao sistema operacional não possam aprender o conteúdo da memória do enclave seguro ou adulterar a execução do código dentro do enclave. Um exemplo de enclave seguro é a Intel Software Guard Extension (SGX).

VMs confidenciais e GPUs confidenciais

Uma VM confidencial é um tipo de VM que usa criptografia de memória baseada em hardware para ajudar a proteger dados e aplicativos. As VMs confidenciais oferecem isolamento e atestado para melhorar a segurança. As tecnologias de computação de VM confidencial incluem AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE e GPU confidencial da Nvidia.

As GPUs confidenciais ajudam a proteger os dados e acelerar a computação, especialmente em nuvem e em ambientes compartilhados. Eles usam técnicas de criptografia e isolamento baseadas em hardware para ajudar a proteger os dados enquanto eles são processados na GPU, garantindo que mesmo o provedor de nuvem ou usuários maliciosos não possam acessar informações sensíveis.

Análise de dados confidenciais, IA e casos de uso de aprendizado federado

Nas seções a seguir, fornecemos exemplos de casos de uso de computação confidencial para vários setores.

Saúde e ciências biológicas

A computação confidencial permite o compartilhamento e a análise de dados seguros em organizações, preservando a privacidade do paciente. A computação confidencial permite que as organizações de saúde participem de pesquisas colaborativas, modelagem de doenças, descoberta de medicamentos e planos de tratamento personalizados.

Na tabela a seguir, descrevemos alguns exemplos de usos da computação confidencial na área da saúde.

Caso de uso Descrição

Previsão de doenças e detecção precoce

Os hospitais treinam um modelo de aprendizado federado para detectar lesões cancerígenas com base em dados de imagens médicas (por exemplo, ressonâncias magnéticas ou tomografias em vários hospitais ou regiões hospitalares), mantendo a confidencialidade do paciente.

Monitoramento do paciente em tempo real

Os profissionais de saúde analisam dados de dispositivos de saúde wearable e apps de saúde para dispositivos móveis para monitoramento e alertas em tempo real. Por exemplo, dispositivos wearable coletam dados sobre níveis de glicose, atividade física e hábitos alimentares para fornecer recomendações personalizadas e avisos antecipados sobre variações de açúcar no sangue.

Descoberta colaborativa de medicamentos

As empresas farmacêuticas treinam modelos em conjuntos de dados reservados para acelerar a descoberta de medicamentos, melhorando a colaboração e protegendo a propriedade intelectual.

Serviços financeiros

Com a computação confidencial, as instituições financeiras podem criar um sistema financeiro mais seguro e resiliente.

Na tabela a seguir, descrevemos alguns exemplos de usos da computação confidencial em serviços financeiros.

Caso de uso Descrição

Crimes financeiros

As instituições financeiras podem colaborar em esforços contra lavagem de dinheiro (AML, na sigla em inglês) ou modelos gerais de fraude compartilhando informações sobre transações suspeitas e, ao mesmo tempo, proteger a privacidade do cliente. Com a computação confidencial, as instituições podem analisar esses dados compartilhados de maneira segura e treinar os modelos para identificar e interromper esquemas complexos de lavagem de dinheiro com mais eficiência.

Avaliação de risco de crédito que preserva a privacidade

Os credores podem avaliar o risco de crédito usando uma variedade maior de fontes de dados, incluindo dados de outras instituições financeiras ou até mesmo de entidades não financeiras. Com a computação confidencial, os credores podem acessar e analisar esses dados sem expô-los a partes não autorizadas. Isso aumenta a precisão dos modelos de pontuação de crédito e mantém a privacidade dos dados.

Descoberta de preços que preserva a privacidade

No mundo financeiro, especialmente em áreas como mercados de venda livre ou ativos ilíquidos, preços precisos é crucial. A computação confidencial permite que várias instituições calculem preços precisos de forma colaborativa, sem revelar os dados confidenciais umas às outras.

Setor público

A computação confidencial permite que os governos criem serviços mais transparentes, eficientes e eficazes, mantendo o controle e a soberania dos dados.

Na tabela a seguir, descrevemos alguns exemplos de usos da computação confidencial no setor público.

Caso de uso Descrição

Soberania digital

A computação confidencial garante que os dados sejam sempre criptografados, mesmo quando estão sendo processados. Ele permite migrações seguras dos dados dos cidadãos para a nuvem, com dados protegidos mesmo quando hospedados em uma infraestrutura externa em ambientes híbridos, públicos ou de várias nuvens. A computação confidencial oferece suporte e capacita a soberania digital e a autonomia digital, com controle e proteção adicionais dos dados em uso, para que as chaves de criptografia não possam ser acessadas pelo provedor de nuvem.

Análise confidencial de várias agências

A computação confidencial permite análise de dados de várias partes em várias agências governamentais (por exemplo, saúde, tributos e educação) ou em vários governos em diferentes regiões ou países. A computação confidencial ajuda a garantir que os limites de confiança e a privacidade dos dados sejam protegidos, além de permitir a análise de dados (usando a Prevenção contra perda de dados (DLP), análise em grande escala e mecanismos de políticas) e o treinamento e a disponibilização de IA.

IA confiável

Os dados governamentais são críticos e podem ser usados para treinar modelos de IA particulares de maneira confiável para melhorar serviços internos e interações dos cidadãos. A computação confidencial permite frameworks de IA confiáveis, com comando confidencial ou treinamento de geração aumentada de recuperação (RAG) confidencial para manter a privacidade e a segurança dos dados e modelos dos cidadãos.

Cadeia de suprimentos

A computação confidencial permite que as organizações gerenciem a cadeia de suprimentos e sustentabilidade, colaborem e compartilhem insights mantendo a privacidade dos dados.

Na tabela a seguir, descrevemos alguns exemplos de usos da computação confidencial em cadeias de suprimentos.

Caso de uso Descrição

Previsão da demanda e otimização do inventário

Com a computação confidencial, cada empresa treina o próprio modelo de previsão de demanda com os próprios dados de vendas e inventário. Esses modelos são então agregados com segurança em um modelo global, fornecendo uma visão mais precisa e holística dos padrões de demanda em toda a cadeia de suprimentos.

Avaliação de risco do fornecedor que preserva a privacidade

Cada organização envolvida na avaliação de risco do fornecedor (por exemplo, compradores, instituições financeiras e auditores) treina o próprio modelo de avaliação de risco com os próprios dados. Esses modelos são agregados para criar um perfil de risco abrangente e que preserva a privacidade do fornecedor, permitindo a identificação precoce de possíveis riscos do fornecedor, maior resiliência da cadeia de suprimentos e melhor tomada de decisões na seleção e gerenciamento de fornecedores.

Monitoramento e redução da pegada de carbono

A computação confidencial oferece uma solução para enfrentar os desafios da privacidade de dados e da transparência no rastreamento da pegada de carbono e nos esforços de redução. Com a computação confidencial, as organizações podem compartilhar e analisar dados sem revelar a forma bruta. Com ela, é possível tomar decisões informadas e agir de maneira efetiva rumo a um futuro mais sustentável.

Publicidade digital

A publicidade digital deixou de usar cookies de terceiros e passou a oferecer alternativas com proteção da privacidade, como o Sandbox de privacidade. O Sandbox de privacidade oferece suporte a casos de uso de publicidade críticos, limitando o rastreamento entre sites e aplicativos. O Sandbox de privacidade usa TEEs para garantir o processamento seguro dos dados dos usuários por empresas de publicidade.

Você pode usar os TEEs nos seguintes casos de uso de publicidade digital:

  • Algoritmos de correspondência: encontrar correspondências ou relacionamentos em conjuntos de dados.
  • Atribuição:vincular efeitos ou eventos às respectivas causas prováveis.
  • Agregação:cálculo de resumos ou estatísticas com base nos dados brutos.

Implementar a Computação confidencial no Google Cloud

Google Cloud inclui os seguintes serviços que permitem a computação confidencial:

  • VM confidencial:ativar a criptografia de dados em uso para cargas de trabalho que usam VMs
  • GKE confidencial:ativar a criptografia de dados em uso para cargas de trabalho que usam contêineres
  • Dataflow confidencial:ativar a criptografia dos dados em uso para análise de streaming e machine learning.
  • Dataproc confidencial:ativar a criptografia dos dados em uso para processamento de dados
  • Espaço confidencial:ativar a criptografia de dados em uso para análise de dados conjunta e machine learning

Esses serviços permitem reduzir seu limite de confiança para que menos recursos tenham acesso aos seus dados confidenciais. Por exemplo, em um ambiente Google Cloud sem Computação confidencial, o limite de confiança inclui a infraestrutura deGoogle Cloud (hardware, hipervisor e SO host) e o SO convidado. Em um ambiente Google Cloud que inclui Computação confidencial (sem espaço confidencial), o limite de confiança inclui apenas o SO convidado e o aplicativo. Em um ambiente Google Cloud com o Espaço confidencial, o limite de confiança é apenas o aplicativo e o espaço de memória associado. A tabela a seguir mostra como o limite de confiança é reduzido com a Computação confidencial e o Espaço confidencial.

Elementos Dentro do limite de confiança sem usar a Computação confidencial Dentro do limite de confiança ao usar a Computação confidencial Dentro do limite de confiança ao usar o Espaço confidencial

Cloud stack e administradores

Sim

Não

Não

BIOS e firmware

Sim

Não

Não

SO do host e hipervisor

Sim

Não

Não

Administrador convidado da VM

Sim

Sim

Não

SO convidado da VM

Sim

Sim

Sim, medido e atestado

Aplicativos

Sim

Sim

Sim, medido e atestado

Dados confidenciais

Sim

Sim

Sim

O Confidential Space cria uma área segura em uma VM para fornecer o mais alto nível de isolamento e proteção para dados e aplicativos sensíveis. Os principais benefícios de segurança do Confidential Space incluem o seguinte:

  • Defesa em profundidade: adiciona uma camada extra de segurança sobre as tecnologias de computação confidencial existentes.
  • Superfície de ataque reduzida:isola os aplicativos de possíveis vulnerabilidades no SO convidado.
  • Controle avançado: fornece controle granular sobre o acesso e as permissões dentro do ambiente seguro.
  • Mais confiança:oferece maior garantia de confidencialidade e integridade de dados.

O Confidential Space foi projetado para lidar com cargas de trabalho altamente sensíveis, especialmente em setores regulamentados ou cenários que envolvem colaborações de várias partes em que a privacidade de dados é fundamental.

Referências de arquitetura para análise confidencial, IA e aprendizado federado

É possível implementar a computação confidencial em Google Cloud para os seguintes casos de uso:

  • Análise confidencial
  • IA confidencial
  • Aprendizado federado confidencial

As seções a seguir fornecem mais informações sobre a arquitetura para esses casos de uso, incluindo exemplos para empresas financeiras e de saúde.

Arquitetura de análise confidencial para instituições de saúde

A arquitetura de análise confidencial demonstra como várias instituições de saúde (como provedores, instituições biofarmacêuticas e de pesquisa) podem trabalhar juntas para acelerar a pesquisa de medicamentos. Essa arquitetura usa técnicas de computação confidenciais para criar uma sala limpa digital para a execução de análises colaborativas confidenciais.

Essa arquitetura tem os seguintes benefícios:

  • Insights aprimorados:com a análise colaborativa, as organizações de saúde podem ter insights mais amplos e diminuir o tempo de lançamento para melhorar a descoberta de medicamentos.
  • Privacidade de dados:os dados confidenciais de transações permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Conformidade regulatória: a arquitetura ajuda as instituições de saúde a cumprir as regulamentações de proteção de dados ao manter um controle rigoroso sobre os dados.
  • Confiança e colaboração: a arquitetura permite uma colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para a descoberta de medicamentos.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições de saúde.

Os principais componentes dessa arquitetura incluem:

  • Servidor de agregação OLAP TEE: um ambiente seguro e isolado em que ocorrem o treinamento e a inferência do modelo de machine learning. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo do sistema operacional ou do provedor de nuvem.
  • Parceiros de colaboração: cada instituição de saúde participante tem um ambiente local que atua como intermediário entre os dados particulares da instituição e o TEE.
  • Dados criptografados específicos do provedor:cada instituição de saúde armazena os próprios dados privados e criptografados de pacientes que incluem históricos de saúde eletrônicos. Esses dados permanecem criptografados durante o processo de análise, o que garante a privacidade deles. Os dados só são liberados para o TEE após a validação das declarações de atestado dos provedores individuais.
  • Cliente do Analytics:as instituições de saúde participantes podem fazer consultas confidenciais nos próprios dados para receber insights imediatos.

Arquitetura de IA confidencial para instituições financeiras

Esse padrão de arquitetura demonstra como as instituições financeiras podem treinar de maneira colaborativa um modelo de detecção de fraudes usando rótulos de fraude para preservar a confidencialidade dos dados de transações confidenciais. A arquitetura usa técnicas de computação confidenciais para permitir o machine learning seguro de várias partes.

Essa arquitetura tem os seguintes benefícios:

  • Detecção aprimorada de fraudes: o treinamento colaborativo usa um conjunto de dados maior e mais diverso, levando a um modelo de detecção de fraudes mais preciso e eficaz.
  • Privacidade de dados:os dados confidenciais de transações permanecem criptografados e nunca são expostos a outros participantes ou ao TEE, garantindo a confidencialidade.
  • Conformidade regulatória: a arquitetura ajuda as instituições financeiras a cumprir as regulamentações de proteção de dados ao manter um controle rigoroso sobre os dados.
  • Confiança e colaboração: essa arquitetura permite a colaboração segura entre instituições concorrentes, promovendo um esforço coletivo para combater fraudes financeiras.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura de análise confidencial para instituições financeiras.

Os principais componentes dessa arquitetura incluem:

  • Servidor de agregação OLAP TEE: um ambiente seguro e isolado em que ocorrem o treinamento e a inferência do modelo de machine learning. Os dados e o código no TEE são protegidos contra acesso não autorizado, mesmo do sistema operacional ou do provedor de nuvem.
  • Treinamento do modelo TEE: o modelo global de base de fraudes é empacotado como contêineres para executar o treinamento de ML. No TEE, o modelo global é treinado ainda mais usando os dados criptografados de todos os bancos participantes. O processo de treinamento emprega técnicas como aprendizado federado ou computação segura de várias partes para garantir que nenhum dado bruto seja exposto.
  • Parceiros colaboradores: cada instituição financeira participante tem um ambiente local que atua como intermediário entre os dados particulares da instituição e o TEE.
  • Dados criptografados específicos do banco: cada banco mantém seus próprios dados privados e criptografados de transações que incluem rótulos de fraude. Os dados permanecem criptografados durante todo o processo, garantindo a privacidade deles. Os dados só são liberados para o TEE após a validação das declarações de atestados de bancos individuais.
  • Repositório de modelos: um modelo de detecção de fraudes pré-treinado que serve como ponto de partida para o treinamento colaborativo.
  • Modelo e pesos treinados por fraude global (simbolizados pela linha verde): o modelo aprimorado de detecção de fraudes, junto com os pesos aprendidos, é trocado com segurança para os bancos participantes. Eles podem implantar esse modelo aprimorado localmente para detecção de fraudes em suas próprias transações.

Arquitetura de aprendizado federado confidencial para instituições financeiras

O aprendizado federado oferece uma solução avançada para clientes que valorizam uma privacidade e soberania de dados rigorosas. A arquitetura de aprendizado federado confidencial fornece uma maneira segura, escalonável e eficiente de usar dados para aplicativos de IA. Essa arquitetura leva os modelos ao local onde os dados são armazenados, em vez de centralizar os dados em um único local, reduzindo os riscos associados ao vazamento de dados.

Esse padrão de arquitetura demonstra como várias instituições financeiras podem treinar de maneira colaborativa um modelo de detecção de fraudes, preservando a confidencialidade dos dados de transações confidenciais com rótulos de fraude. Ele usa aprendizado federado e técnicas de computação confidenciais para possibilitar o machine learning seguro e de várias partes, sem a necessidade de mover dados de treinamento.

Essa arquitetura tem os seguintes benefícios:

  • Privacidade e segurança de dados aprimoradas:o aprendizado federado permite a privacidade e a localidade dos dados, garantindo que os dados sensíveis permaneçam em cada site. Além disso, as instituições financeiras podem usar técnicas de preservação de privacidade, como criptografia homomórfica e filtros de privacidade diferencial, para proteger ainda mais os dados transferidos, como os pesos do modelo.
  • Maior precisão e diversidade:ao treinar com várias fontes de dados em diferentes clientes, as instituições financeiras podem desenvolver um modelo global robusto e generalizável para representar melhor conjuntos de dados heterogêneos.
  • Escalonabilidade e eficiência da rede: com a capacidade de realizar treinamento na borda, as instituições podem escalonar o aprendizado federado em todo o mundo. Além disso, as instituições só precisam transferir os pesos do modelo em vez de conjuntos de dados inteiros, o que permite o uso eficiente dos recursos de rede.

O diagrama a seguir mostra essa arquitetura.

Diagrama da arquitetura confidencial de aprendizado federado.

Os principais componentes dessa arquitetura incluem:

  • Servidor federado no cluster TEE: um ambiente seguro e isolado em que o servidor de aprendizado federado orquestra a colaboração de vários clientes enviando primeiro um modelo inicial para eles. Os clientes realizam o treinamento nos conjuntos de dados locais e, em seguida, enviam as atualizações do modelo de volta ao servidor de aprendizado federado para agregação para formar um modelo global.
  • Repositório de modelos de aprendizado federado:um modelo de detecção de fraudes pré-treinado que serve como ponto de partida para o aprendizado federado.
  • Mecanismo de inferência de aplicativos local:um aplicativo que executa tarefas, realiza computação e aprendizado locais com conjuntos de dados locais e envia os resultados de volta ao servidor de aprendizado federado para agregação segura.
  • Dados particulares locais: cada banco detém seus próprios dados privados e criptografados de transações que incluem rótulos de fraude. Os dados permanecem criptografados durante todo o processo, garantindo a privacidade.
  • Protocolo de agregação seguro (simbolizado pela linha azul pontilhada): o servidor de aprendizado federado não precisa acessar a atualização de nenhum banco individual para treinar o modelo. Ele requer apenas as médias ponderadas por elemento dos vetores de atualização, extraídas de um subconjunto aleatório de bancos ou sites. O uso de um protocolo de agregação seguro para calcular essas médias ponderadas ajuda a garantir que o servidor saiba apenas que um ou mais bancos nesse subconjunto selecionado aleatoriamente escreveu uma determinada palavra, mas não quais bancos, preservando a privacidade de cada participante no processo de aprendizado federado.
  • Modelo global treinado por fraude e pesos agregados (simbolizado pela linha verde): o modelo aprimorado de detecção de fraudes, junto com os pesos aprendidos, é enviado com segurança de volta aos bancos participantes. Os bancos podem então implantar esse modelo aprimorado localmente para detecção de fraudes em suas próprias transações.

A seguir

Colaboradores