Principais conceitos

Esta página fornece informações sobre os principais conceitos do Model Armor.

Modelos do Model Armor

Com os modelos do Model Armor, é possível configurar como o Model Armor analisa comandos e respostas. Elas funcionam como conjuntos de filtros e limiares personalizados para diferentes níveis de confiança de segurança, permitindo o controle sobre o conteúdo sinalizado.

Os limites representam níveis de confiança. Ou seja, o nível de confiança do Model Armor de que o comando ou a resposta inclui conteúdo ofensivo. Por exemplo, é possível criar um modelo que filtre solicitações de conteúdo de ódio com um limite HIGH. Isso significa que o Model Armor informa com alta confiança que a solicitação contém conteúdo de ódio. Um limite de LOW_AND_ABOVE indica qualquer nível de confiança (LOW, MEDIUM e HIGH) ao fazer essa declaração.

Filtros do Model Armor

O Model Armor oferece vários filtros para ajudar você a fornecer modelos de IA seguros. Confira uma análise das categorias de filtro.

Filtro de segurança da IA responsável

Os comandos e as respostas podem ser analisados nos níveis de confiança mencionados acima para as seguintes categorias:

Categoria Definição
Discurso de ódio Comentários negativos ou nocivos voltados à identidade e/ou atributos protegidos.
Assédio Comentários ameaçadores, intimidadores, abusivos ou violentos direcionados a outra pessoa
Sexualmente explícito Contém referências a atos sexuais ou outro conteúdo sexual.
Conteúdo perigoso Promove ou permite o acesso a produtos, serviços e atividades prejudiciais.

O filtro de material de abuso sexual infantil (CSAM, na sigla em inglês) é aplicado por padrão e não pode ser desativado.

Detecção de jailbreak e injeção de comando

A injeção de comandos é uma vulnerabilidade de segurança em que os invasores criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isso pode fazer com que a IA ignore as instruções usuais, revele informações sensíveis ou execute ações que não foi projetada para realizar. O jailbreak no contexto de LLMs se refere ao ato de burlar os protocolos de segurança e as diretrizes éticas integrados ao modelo. Isso permite que o LLM gere respostas que ele foi originalmente projetado para evitar, como conteúdo nocivo, antiético e perigoso.

Quando a detecção de injeção de comandos e jailbreak está ativada, o Model Armor verifica comandos e respostas em busca de conteúdo malicioso. Se for detectado, o Model Armor vai bloquear o comando ou a resposta.

Proteção de dados sensíveis

Dados sensíveis, como o nome ou endereço de uma pessoa, podem ser enviados inadvertidamente ou intencionalmente a um modelo ou fornecidos na resposta dele.

A Proteção de Dados Sensíveis é um serviço do Google Cloud que ajuda a descobrir, classificar e desidentificar dados sensíveis. A Proteção de dados sensíveis pode identificar elementos, contexto e documentos sensíveis para ajudar você a reduzir o risco de vazamento de dados em cargas de trabalho de IA. É possível usar a Proteção de dados sensíveis diretamente no Model Armor para transformar, tokenizar e redigir elementos sensíveis, mantendo o contexto não sensível. O Model Armor pode aceitar modelos de inspeção atuais, que são configurações que funcionam como projetos para simplificar o processo de verificação e identificação de dados sensíveis específicos para as necessidades de compliance e negócios. Assim, você pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a Proteção de dados sensíveis.

O Model Armor oferece dois modos para a configuração da Proteção de Dados Sensíveis:

  • Configuração básica da Proteção de Dados Sensíveis: esse modo oferece uma maneira mais simples de configurar a Proteção de Dados Sensíveis especificando diretamente os tipos de dados sensíveis a serem verificados. Ele aceita seis categorias: CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS e GCP_API_KEY. A configuração básica permite apenas operações de inspeção e não é compatível com o uso de modelos da Proteção de Dados Sensíveis. Para mais informações, consulte Configuração básica da Proteção de dados sensíveis.

  • Configuração avançada da Proteção de Dados Sensíveis: esse modo oferece mais flexibilidade e personalização ao permitir o uso de modelos da Proteção de Dados Sensíveis. Os modelos da Proteção de dados sensíveis são configurações predefinidas que permitem especificar regras de detecção e técnicas de desidentificação mais granulares. A configuração avançada permite operações de inspeção e desidentificação.

Embora seja possível definir níveis de confiança para a Proteção de Dados Sensíveis, eles funcionam de maneira um pouco diferente dos níveis de confiança de outros filtros. Para mais informações sobre níveis de confiança na Proteção de dados sensíveis, consulte Probabilidade de correspondência da Proteção de dados sensíveis. Para mais informações sobre a Proteção de Dados Sensíveis em geral, consulte a Visão geral da Proteção de Dados Sensíveis.

Detecção de URL malicioso

Os URLs maliciosos geralmente são disfarçados para parecer legítimos, o que os torna uma ferramenta poderosa para ataques de phishing, distribuição de malware e outras ameaças on-line. Por exemplo, se um PDF tiver um URL malicioso incorporado, ele poderá ser usado para comprometer qualquer sistema downstream que processe saídas de LLM.

Quando a detecção de URL malicioso está ativada, o Model Armor verifica os URLs para identificar se eles são maliciosos. Isso permite que você tome medidas e evite que URLs maliciosos sejam retornados.

Níveis de confiança do Model Armor

Os níveis de confiança podem ser definidos para categorias de segurança de IA responsável (ou seja, sexualmente explícito, perigoso, assédio e discurso de ódio), injeção de comandos e jailbreak, além de proteção de dados sensíveis (incluindo relevância).

Para níveis de confiança que permitem limites granulares, o Model Armor os interpreta da seguinte maneira:

  • Alto: identifica se a mensagem tem conteúdo com alta probabilidade.
  • Média e acima: identifica se a mensagem tem conteúdo com probabilidade média ou alta.
  • Baixa e acima: identifica se a mensagem tem conteúdo com probabilidade baixa, média ou alta.

Definir o tipo de aplicação

A aplicação define o que acontece depois que uma violação é detectada. Para configurar como o Model Armor processa as detecções, defina o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:

  • Somente inspeção: inspeciona solicitações que violam as configurações definidas, mas não as bloqueia.
  • Inspecionar e bloquear: bloqueia solicitações que violam as configurações definidas.

Para usar o Inspect only de forma eficaz e receber insights valiosos, ative o Cloud Logging. Sem o Cloud Logging ativado, Inspect only não vai gerar informações úteis.

Acesse seus registros pelo Cloud Logging. Filtre pelo nome do serviço modelarmor.googleapis.com. Procure entradas relacionadas às operações que você ativou no modelo. Para mais informações, consulte Ver registros usando o Explorador de registros.

Triagem de PDF

O texto em PDFs pode incluir conteúdo malicioso e sensível. O Model Armor pode verificar PDFs em busca de segurança, injeção de comandos e tentativas de jailbreak, dados sensíveis e URLs maliciosos.

Configurações do Model Armor Floor

Embora os modelos do Model Armor ofereçam flexibilidade para aplicativos individuais, as organizações geralmente precisam estabelecer um nível básico de proteção em todos os aplicativos de IA. É aqui que as configurações de limite mínimo do Model Armor são usadas. Elas funcionam como regras que determinam os requisitos mínimos para todos os modelos criados em um ponto específico da hierarquia de recursos (ou seja, no nível de uma organização, pasta ou projeto). Google Cloud

Para mais informações, consulte Configurações de limite mínimo do Model Armor.

A seguir