Visão geral do Model Armor

O Model Armor é um serviço Google Cloud projetado para aumentar a segurança dos seus aplicativos de IA. Ele funciona examinando proativamente comandos e respostas de LLMs, protegendo contra vários riscos e garantindo práticas de IA responsável. Se você estiver implantando IA no seu ambiente de nuvem ou até mesmo em provedores de nuvem externos, o Model Armor pode ajudar a evitar entradas maliciosas, verificar a segurança do conteúdo, proteger dados sensíveis, manter a conformidade e

Arquitetura

Arquitetura do Model Armor Este diagrama de arquitetura mostra um aplicativo usando o Model Armor para proteger um LLM e um usuário. As etapas a seguir explicam o fluxo de dados.

  1. Um usuário fornece um comando ao aplicativo.
  2. O Model Armor inspeciona o comando recebido em busca de conteúdo potencialmente sensível.
  3. O comando (ou comando higienizado) é enviado ao LLM.
  4. O LLM gera uma resposta.
  5. O Model Armor inspeciona a resposta gerada em busca de conteúdo potencialmente sensível.
  6. A resposta (ou resposta higienizada) é enviada ao usuário. O Model Armor envia uma descrição detalhada dos filtros acionados e não acionados na resposta.

O Model Armor filtra entradas (comandos) e saídas (respostas) para evitar que o LLM seja exposto ou gere conteúdo malicioso ou sensível.

Casos de uso

O Model Armor tem vários casos de uso em vários setores:

  • Segurança

    • Reduza o risco de vazamento de propriedade intelectual (PI) sensível e informações de identificação pessoal (PII) que podem ser incluídas em comandos ou respostas de LLMs.
    • Proteja contra ataques de injeção de comandos e jailbreak, impedindo que usuários maliciosos manipulem sistemas de IA para realizar ações não intencionais.
    • Verificar se há conteúdo sensível ou malicioso em textos de PDFs.
  • Segurança e IA responsável

    • Evite que seu chatbot recomende soluções da concorrência, mantendo a integridade da marca e a fidelidade do cliente.
    • As organizações podem filtrar postagens de redes sociais geradas pela IA que contenham mensagens nocivas, como conteúdo perigoso ou de incitação ao ódio.

Modelos do Model Armor

Com os modelos do Model Armor, é possível configurar como ele analisa comandos e respostas. Elas funcionam como conjuntos de filtros e limiares personalizados para diferentes níveis de confiança de segurança, permitindo o controle sobre o conteúdo sinalizado.

Os limites representam níveis de confiança, ou seja, o grau de confiança do Model Armor de que a solicitação ou resposta inclui conteúdo ofensivo. Por exemplo, é possível criar um modelo que filtre comandos com conteúdo de ódio usando um limite HIGH. Isso significa que o Model Armor informa alta confiança de que o comando contém conteúdo de ódio. Um limite de LOW_AND_ABOVE indica qualquer nível de confiança (LOW, MEDIUM e HIGH) ao fazer essa declaração.

Para mais informações, consulte Modelos do Model Armor.

Níveis de confiança do Model Armor

É possível definir níveis de confiança para categorias de segurança de IA responsável (sexualmente explícito, perigoso, assédio e discurso de ódio), detecção de injeção de comando e jailbreak e proteção de dados sensíveis (incluindo relevância).

Para níveis de confiança que permitem limites granulares, o Model Armor os interpreta da seguinte maneira:

  • Alto: identifica se a mensagem tem conteúdo com alta probabilidade.
  • Média e acima: identifica se a mensagem tem conteúdo com probabilidade média ou alta.
  • Baixa e acima: identifica se a mensagem tem conteúdo com probabilidade baixa, média ou alta.

Filtros do Model Armor

O Model Armor oferece vários filtros para ajudar você a fornecer modelos de IA seguros. As seguintes categorias de filtros estão disponíveis.

Filtro de segurança da IA responsável

É possível filtrar comandos e respostas nos níveis de confiança mencionados acima para as seguintes categorias:

Categoria Definição
Discurso de ódio Comentários negativos ou nocivos voltados à identidade e/ou atributos protegidos.
Assédio Comentários ameaçadores, intimidadores, abusivos ou violentos direcionados a outra pessoa
Sexualmente explícito Contém referências a atos sexuais ou outro conteúdo sexual.
Conteúdo perigoso Promove ou permite o acesso a produtos, serviços e atividades prejudiciais.

O filtro de material de abuso sexual infantil (CSAM) é aplicado por padrão e não pode ser desativado.

Detecção de jailbreak e injeção de comando

A injeção de comandos é uma vulnerabilidade de segurança em que os invasores criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isso pode fazer com que a IA ignore as instruções usuais, revele informações sensíveis ou execute ações que não foi projetada para realizar. O jailbreak no contexto de LLMs se refere ao ato de burlar os protocolos de segurança e as diretrizes éticas integrados ao modelo. Isso permite que o LLM gere respostas que ele foi originalmente projetado para evitar, como conteúdo nocivo, antiético e perigoso.

Quando a detecção de injeção de comandos e jailbreak está ativada, o Model Armor verifica comandos e respostas em busca de conteúdo malicioso. Se for detectado, o Model Armor vai bloquear o comando ou a resposta.

Proteção de dados sensíveis

A Proteção de Dados Sensíveis é um serviço do Google Cloud que ajuda a descobrir, classificar e desidentificar dados sensíveis. A Proteção de Dados Sensíveis pode identificar elementos, contexto e documentos sensíveis para ajudar você a reduzir o risco de vazamento de dados em cargas de trabalho de IA. É possível usar a Proteção de dados sensíveis diretamente no Model Armor para transformar, tokenizar e redigir elementos sensíveis, mantendo o contexto não sensível. O Model Armor pode aceitar modelos de inspeção atuais, que são configurações que funcionam como projetos para simplificar o processo de verificação e identificação de dados sensíveis específicos para as necessidades de compliance e negócios. Assim, você pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a Proteção de dados sensíveis.

O Model Armor oferece dois modos para a configuração da Proteção de Dados Sensíveis:

  • Configuração básica: nesse modo, você configura a Proteção de Dados Sensíveis especificando os tipos de dados sensíveis que serão verificados. Esse modo é compatível com as seguintes categorias:

    • Número do cartão de crédito
    • Número do Seguro Social (SSN) dos EUA
    • Número da conta financeira
    • Número de identificação do contribuinte individual (ITIN) dos EUA
    • Google Cloud credentials
    • Google Cloud Chave de API

    A configuração básica permite apenas operações de inspeção e não é compatível com o uso de modelos da Proteção de Dados Sensíveis. Para mais informações, consulte Configuração básica da Proteção de dados sensíveis.

  • Configuração avançada: esse modo oferece mais flexibilidade e personalização com os modelos da proteção de dados sensíveis. Os modelos da Proteção de dados sensíveis são configurações predefinidas que permitem especificar regras de detecção e técnicas de desidentificação mais detalhadas. A configuração avançada permite operações de inspeção e desidentificação.

Os níveis de confiança da Proteção de Dados Sensíveis funcionam de maneira um pouco diferente dos níveis de confiança de outros filtros. Para mais informações sobre níveis de confiança da Proteção de dados sensíveis, consulte Probabilidade de correspondência da Proteção de dados sensíveis. Para mais informações sobre a Proteção de Dados Sensíveis em geral, consulte a Visão geral da Proteção de Dados Sensíveis.

Detecção de URL malicioso

Os URLs maliciosos geralmente são disfarçados para parecer legítimos, o que os torna uma ferramenta poderosa para ataques de phishing, distribuição de malware e outras ameaças on-line. Por exemplo, se um PDF tiver um URL malicioso incorporado, ele poderá ser usado para comprometer qualquer sistema downstream que processe saídas de LLM.

Quando a detecção de URL malicioso está ativada, o Model Armor verifica os URLs para identificar se eles são maliciosos. Isso permite que você tome medidas e impeça que URLs maliciosos sejam retornados.

Definir o tipo de aplicação

A aplicação define o que acontece depois que uma violação é detectada. Para configurar como o Model Armor processa as detecções, defina o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:

  • Somente inspeção: inspeciona solicitações que violam as configurações definidas, mas não as bloqueia.
  • Inspecionar e bloquear: bloqueia solicitações que violam as configurações definidas.

Para usar o Inspect only de forma eficaz e receber insights valiosos, ative o Cloud Logging. Sem o Cloud Logging ativado, Inspect only não vai gerar informações úteis.

Acesse seus registros pelo Cloud Logging. Filtre pelo nome do serviço modelarmor.googleapis.com. Procure entradas relacionadas às operações que você ativou no modelo. Para mais informações, consulte Ver registros usando o Explorador de registros.

Configurações do Model Armor Floor

Embora os modelos do Model Armor ofereçam flexibilidade para aplicativos individuais, as organizações geralmente precisam estabelecer um nível básico de proteção em todos os aplicativos de IA. É aqui que as configurações de limite mínimo do Model Armor são usadas. Elas atuam como regras que definem requisitos mínimos para todos os modelos criados em um ponto específico da hierarquia de recursos Google Cloud (ou seja, no nível de uma organização, pasta ou projeto).

Para mais informações, consulte Configurações de limite mínimo do Model Armor.

Suporte ao idioma

Os filtros do Model Armor ajudam a higienizar comandos e respostas em vários idiomas.

Há duas maneiras de ativar a detecção de vários idiomas:

  • Ativar em cada solicitação: para um controle granular, ative a detecção de vários idiomas em cada solicitação ao limpar um comando do usuário e limpar uma resposta do modelo.

  • Ativar uma única vez: se você preferir uma configuração mais simples, ative a detecção multilíngue como uma configuração única no nível do modelo do Model Armor usando a API REST. Para mais informações, consulte Criar um modelo do Model Armor.

Triagem de documentos

O texto nos documentos pode incluir conteúdo sensível e malicioso. O Model Armor pode verificar os seguintes tipos de documentos para segurança, injeção de comandos e tentativas de jailbreak, dados sensíveis e URLs maliciosos:

  • PDFs
  • CSV
  • Arquivos de texto: TXT
  • Documentos do Microsoft Word: DOCX, DOCM, DOTX, DOTM
  • Slides do Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
  • Planilhas do Microsoft Excel: XLSX, XLSM, XLTX, XLTM

O Model Armor rejeita solicitações para verificar arquivos no formato rich text com tamanho de 50 bytes ou menos, porque é muito provável que eles sejam inválidos.

Preços

O Model Armor pode ser comprado como parte integrada do Security Command Center ou como um serviço independente. Para informações sobre preços, consulte Preços do Security Command Center.

Tokens

Os modelos de IA generativa dividem o texto e outros dados em unidades chamadas tokens. O Model Armor usa o número total de tokens em comandos e respostas de IA para fins de preços. O Model Armor limita o número de tokens processados em cada comando e resposta.

O Model Armor tem limites de token variados, dependendo do filtro específico. Quando a solicitação ou resposta excede o limite de tokens, o filtro de proteção de dados sensíveis retorna EXECUTION_SKIPPED. Todos os outros filtros, se o comando ou a resposta exceder o limite de tokens, vão retornar MATCH_FOUND se conteúdo malicioso for encontrado e EXECUTION_SKIPPED se não for.

Filtro Limite de tokens
Detecção de jailbreak e injeção de comando 10.000
IA responsável 10.000
Material de abuso sexual infantil 10.000
Proteção de dados sensíveis Até 130.000

A seguir