Como o Google protege o espaço físico–lógico em um data center

Este conteúdo foi atualizado pela última vez em maio de 2023 e representa o estado do momento em que foi escrito. Os sistemas e as políticas de segurança do Google podem mudar no futuro, à medida que a proteção dos clientes é aprimorada.

Cada data center do Google é um ambiente grande e diversificado de máquinas, dispositivos de rede e sistemas de controle. Os data centers são projetados como complexos industriais que exigem uma ampla variedade de papéis e habilidades para serem gerenciados, mantidos e operados.

Nesses ambientes complexos, a segurança dos seus dados é nossa maior prioridade. O Google implementa seis camadas de controles físicos (vídeo) e muitos controles lógicos nas máquinas. Também simulamos continuamente cenários de ameaça em que alguns controles falham ou não são aplicados.

Alguns cenários de ameaça simulam o risco de pessoas com informações privilegiadas e supõem que um invasor já tem acesso legítimo ao andar do data center. Esses cenários revelam um espaço entre controles físicos e lógicos que também exigem defesa em profundidade. Esse espaço, definido pelo distanciamento entre uma máquina e o ambiente de execução dessa máquina, é conhecido como o espaço físico–lógico.

O espaço físico-lógico é semelhante ao ambiente físico ao redor seu celular. Mesmo que seu smartphone esteja bloqueado, você só concede acesso físico a pessoas que tenham um motivo válido para acessá-lo. O Google usa a mesma abordagem para as máquinas que armazenam seus dados.

Resumo dos controles físicos–lógicos

No espaço físico–lógico, o Google usa três controles que funcionam em conjunto:

  • Aumento da proteção do hardware: reduz os caminhos de acesso físico de cada máquina, conhecidos como superfície de ataque, das seguintes maneiras:
    • Minimiza vetores de acesso físico, como portas.
    • Bloqueia os caminhos restantes no nível do firmware, incluindo o sistema básico de entrada/saída (BIOS, na sigla em inglês) e todos os controladores de gerenciamento e dispositivos periféricos.
  • Detecção de eventos anômalos: gera alertas quando os controles físicos–lógicos detectam eventos anômalos.
  • Autodefesa do sistema: reconhece alterações no ambiente físico e responde a ameaças com ações de defesa.

Juntos, esses controles fornecem uma resposta de defesa em profundidade a ocorrências de segurança no espaço físico–lógico. O diagrama a seguir mostra os três controles ativos em um gabinete de rack seguro.

Os três controles ativos em um gabinete de rack seguro.

Aumento da proteção do hardware

O aumento da proteção do hardware ajuda a reduzir a superfície de ataque físico para minimizar os riscos residuais.

Um data center corporativo convencional tem uma planta baixa aberta e fileiras de racks sem barreiras entre o painel frontal e as pessoas no andar do data center. Esse data center pode ter máquinas com muitas portas externas, como USB-A, Micro USB ou RJ-45, que aumentam o risco de um ataque. Qualquer pessoa com acesso físico ao andar do data center pode acessar o armazenamento removível com rapidez e facilidade ou conectar um dispositivo USB com malware a uma porta exposta no painel frontal. Os data centers do Google usam o aumento da proteção do hardware como controle básico para ajudar a reduzir esses riscos.

O aumento da proteção do hardware é um conjunto de medidas preventivas no rack e nas respectivas máquinas que ajuda a reduzir o máximo possível a superfície de ataque físico. O aumento da proteção nas máquinas inclui as seguintes ações:

  • Remover ou desativar as portas expostas e bloquear as portas restantes no nível do firmware.
  • Monitorar a mídia de armazenamento com sinais de detecção de adulterações de alta fidelidade.
  • Criptografar dados em repouso.
  • Quando compatível com o hardware, usar o atestado do dispositivo para impedir que dispositivos não autorizados sejam implantados no ambiente de execução.

Em alguns cenários, para garantir que nenhuma pessoa tenha acesso físico às máquinas, o Google também instala gabinetes de rack seguros que ajudam a impedir adulterações. Os gabinetes de rack seguros oferecem uma barreira física imediata aos transeuntes e também podem acionar alarmes e notificações para a equipe de segurança. Os gabinetes, combinados com as correções de máquina discutidas anteriormente, oferecem uma camada de proteção poderosa ao espaço físico–lógico.

As imagens a seguir ilustram a progressão de racks totalmente abertos para gabinetes de rack seguros com aumento da proteção do hardware completo.

  • A imagem a seguir mostra um rack sem aumento da proteção do hardware:

    Um rack sem aumento da proteção do hardware.

  • A imagem a seguir mostra um rack com um pouco de aumento da proteção do hardware:

    Um rack com um pouco de aumento da proteção do hardware.

  • A imagem a seguir mostra as partes frontal e traseira de um rack com aumento da proteção do hardware completo:

    As partes frontal e traseira de um rack com aumento da proteção do hardware completo.

Detecção de eventos anômalos

A detecção de eventos anômalos permite à equipe de segurança saber quando as máquinas sofrem eventos inesperados.

Em todo o setor, as organizações podem levar meses ou anos para descobrir violações de segurança e, geralmente, apenas depois de ocorrerem perdas ou danos significativos. O indicador de comprometimento (IoC) crítico pode se perder em um alto volume de dados de geração de registros e telemetria de milhões de máquinas de produção. No entanto, o Google usa o TBAC e vários fluxos de dados para ajudar a identificar eventos de segurança físicos–lógicos em tempo real. Esse controle é chamado de detecção de eventos anômalos.

Máquinas modernas monitoram e registram seus estados físicos e os eventos que ocorrem no espaço físico–lógico. As máquinas recebem essas informações através de software de sistema automatizado constante. Esse software pode ser executado em minicomputadores dentro da máquina, chamados controladores de gerenciamento da placa base (BMCs, na sigla em inglês), ou como parte de um daemon do sistema operacional. Esse software relata eventos importantes, como tentativas de login, inserção de dispositivos físicos e alarmes de sensor, como um sensor de adulteração de gabinete.

Em máquinas com raiz de confiança do hardware, os sinais de detecção de eventos anômalos são ainda mais fortes. A raiz de confiança do hardware permite ao software do sistema, como o firmware BMC, atestar que ele foi inicializado com segurança. Por isso, os sistemas de detecção do Google têm um grau de confiança ainda mais alto de que os eventos relatados são válidos. Para mais informações sobre raízes de confiança independentes, consulte Certificação remota de máquinas desagregadas.

Autodefesa do sistema

A autodefesa do sistema permite aos sistemas responderem a possíveis violações com ações de defesa imediatas.

Em alguns cenários de ameaça, consideramos que um invasor no espaço físico–lógico pode burlar as medidas de acesso físico discutidas em Aumento da proteção do hardware. Esse invasor pode estar atacando os dados dos usuários ou um processo sensível em execução em alguma máquina.

Para reduzir esse risco, o Google implementa a autodefesa do sistema: um controle que envia uma resposta imediata e decisiva a qualquer possível violação. Esse controle usa a telemetria do ambiente físico para agir no ambiente lógico.

A maioria dos ambientes de produção de grande escala tem várias máquinas físicas em um só rack. Cada máquina física executa várias cargas de trabalho, como máquinas virtuais (VMs) ou contêineres do Kubernetes. Cada VM executa o próprio sistema operacional usando memória e armazenamento dedicados.

Para determinar quais cargas de trabalho são expostas a ocorrências de segurança, o Google agrega os dados de telemetria dos controles de aumento da proteção do hardware e da detecção de eventos anômalos. Em seguida, correlacionamos os dados para gerar um pequeno conjunto de eventos que são de alto risco e exigem ação imediata. Por exemplo, a combinação de um alarme da porta do rack seguro e o sinal de abertura do chassi de uma máquina podem constituir um evento de alto risco.

Quando o Google detecta esses eventos, os sistemas podem realizar ações imediatas:

  • As cargas de trabalho expostas podem encerrar serviços sensíveis de forma imediata e excluir permanentemente dados sensíveis.
  • A malha de rede de computadores pode isolar o rack afetado.
  • As cargas de trabalho afetadas podem ser reprogramadas em outras máquinas ou até mesmo em data centers, dependendo da situação.

Graças ao controle de autodefesa do sistema, mesmo que um invasor consiga acessar fisicamente uma máquina, ele não conseguirá extrair dados nem se mover lateralmente no ambiente.

A seguir


Autores: Paul Pescitelli e Kevin Plybon