Esta página foi traduzida pela API Cloud Translation.

Visão geral do Model Armor

O Model Armor é um serviço Google Cloud projetado para aprimorar a segurança dos seus aplicativos de IA. Ele funciona verificando proativamente comandos e respostas de LLMs, protegendo contra vários riscos e garantindo práticas de IA responsável. Se você estiver implantando IA no seu ambiente de nuvem ou até mesmo em provedores de nuvem externos, o Model Armor pode ajudar a evitar entradas maliciosas, verificar a segurança do conteúdo, proteger dados sensíveis, manter a conformidade e aplicar suas políticas de segurança e proteção de IA de maneira consistente em todo o seu cenário diversificado de IA.

Arquitetura

Arquitetura do Model Armor Este diagrama de arquitetura mostra um aplicativo usando o Model Armor para proteger um LLM e um usuário. As etapas a seguir explicam o fluxo de dados.

Um usuário fornece um comando ao aplicativo.
O Model Armor inspeciona o comando recebido em busca de conteúdo potencialmente sensível.
O comando (ou comando higienizado) é enviado ao LLM.
O LLM gera uma resposta.
O Model Armor inspeciona a resposta gerada em busca de conteúdo potencialmente sensível.
A resposta (ou resposta higienizada) é enviada ao usuário. O Model Armor envia uma descrição detalhada dos filtros acionados e não acionados na resposta.

O Model Armor filtra entradas (comandos) e saídas (respostas) para evitar que o LLM seja exposto ou gere conteúdo malicioso ou sensível.

Casos de uso

O Model Armor tem vários casos de uso em vários setores:

Segurança
- Reduza o risco de vazamento de propriedade intelectual (PI) sensível e informações de identificação pessoal (PII) que podem ser incluídas em comandos ou respostas do LLM.
- Proteja contra ataques de injeção de comandos e jailbreak, impedindo que agentes maliciosos manipulem sistemas de IA para realizar ações não intencionais.
- Verificar se há conteúdo sensível ou malicioso em textos de PDFs.
Segurança e IA responsável
- Evite que seu chatbot recomende soluções da concorrência, mantendo a integridade da marca e a fidelidade do cliente.
- As organizações podem filtrar postagens de redes sociais geradas pela IA que contenham mensagens nocivas, como conteúdo perigoso ou de incitação ao ódio.

Modelos do Model Armor

Os modelos do Model Armor permitem configurar como ele examina comandos e respostas. Eles funcionam como conjuntos de filtros e limites personalizados para diferentes níveis de confiança de segurança, permitindo o controle sobre o conteúdo sinalizado.

Os limites representam níveis de confiança, ou seja, o grau de certeza do Model Armor de que o comando ou a resposta inclui conteúdo ofensivo. Por exemplo, é possível criar um modelo que filtre solicitações de conteúdo de ódio com um limite de HIGH, o que significa que o Model Armor informa alta confiança de que a solicitação contém conteúdo de ódio. Um limite LOW_AND_ABOVE indica qualquer nível de confiança (LOW, MEDIUM e HIGH) ao fazer essa declaração.

Para mais informações, consulte Modelos do Model Armor.

Níveis de confiança do Model Armor

É possível definir níveis de confiança para categorias de segurança de IA responsável (sexualmente explícito, perigoso, assédio e discurso de ódio), detecção de injeção de comando e jailbreak e proteção de dados sensíveis (incluindo relevância).

Para níveis de confiança que permitem limites granulares, o Model Armor os interpreta da seguinte maneira:

Alto: identifica se a mensagem tem conteúdo com alta probabilidade.
Média e acima: identifica se a mensagem tem conteúdo com probabilidade média ou alta.
Baixa e acima: identifica se a mensagem tem conteúdo com probabilidade baixa, média ou alta.

Filtros do Model Armor

O Model Armor oferece vários filtros para ajudar você a fornecer modelos de IA seguros. As seguintes categorias de filtros estão disponíveis.

Filtro de segurança da IA responsável

É possível filtrar comandos e respostas nos níveis de confiança mencionados acima para as seguintes categorias:

Categoria	Definição
Discurso de ódio	Comentários negativos ou nocivos voltados à identidade e/ou atributos protegidos.
Assédio	Comentários ameaçadores, intimidadores, abusivos ou violentos direcionados a outra pessoa
Sexualmente explícito	Contém referências a atos sexuais ou outro conteúdo sexual.
Conteúdo perigoso	Promove ou permite o acesso a produtos, serviços e atividades prejudiciais.

O filtro de material de abuso sexual infantil (CSAM, na sigla em inglês) é aplicado por padrão e não pode ser desativado.

Detecção de jailbreak e injeção de comando

A injeção de comandos é uma vulnerabilidade de segurança em que os invasores criam comandos especiais na entrada de texto (o comando) para enganar um modelo de IA. Isso pode fazer com que a IA ignore as instruções usuais, revele informações sensíveis ou execute ações que não foi projetada para realizar. O jailbreak no contexto de LLMs se refere ao ato de burlar os protocolos de segurança e as diretrizes éticas integrados ao modelo. Isso permite que o LLM gere respostas que ele foi originalmente projetado para evitar, como conteúdo nocivo, antiético e perigoso.

Quando a detecção de injeção de comandos e jailbreak está ativada, o Model Armor analisa comandos e respostas em busca de conteúdo malicioso. Se for detectado, o Model Armor vai bloquear o comando ou a resposta.

Proteção de dados sensíveis

A Proteção de Dados Sensíveis é um serviço do Google Cloud que ajuda a descobrir, classificar e desidentificar dados sensíveis. A Proteção de dados sensíveis pode identificar elementos, contexto e documentos sensíveis para ajudar a reduzir o risco de vazamento de dados em cargas de trabalho de IA. É possível usar a Proteção de dados sensíveis diretamente no Model Armor para transformar, tokenizar e encobrir elementos sensíveis, mantendo o contexto não sensível. O Model Armor pode aceitar modelos de inspeção atuais, que são configurações que funcionam como projetos para simplificar o processo de verificação e identificação de dados sensíveis específicos para as necessidades de compliance e negócios. Assim, você pode ter consistência e interoperabilidade entre outras cargas de trabalho que usam a Proteção de dados sensíveis.

O Model Armor oferece dois modos para a configuração da Proteção de Dados Sensíveis:

Configuração básica: nesse modo, você configura a Proteção de Dados Sensíveis especificando os tipos de dados sensíveis que serão verificados. Esse modo é compatível com as seguintes categorias:
- Número do cartão de crédito
- Número do Seguro Social (SSN) dos EUA
- Número da conta financeira
- Número de identificação do contribuinte individual (ITIN) dos EUA
- Google Cloud credentials
- Google Cloud Chave de API
A configuração básica permite apenas operações de inspeção e não é compatível com o uso de modelos da Proteção de Dados Sensíveis. Para mais informações, consulte Configuração básica da Proteção de dados sensíveis.
Configuração avançada: esse modo oferece mais flexibilidade e personalização com os modelos da proteção de dados sensíveis. Os modelos da Proteção de dados sensíveis são configurações predefinidas que permitem especificar regras de detecção e técnicas de desidentificação mais detalhadas. A configuração avançada permite operações de inspeção e desidentificação.

Os níveis de confiança da Proteção de Dados Sensíveis funcionam de maneira um pouco diferente dos níveis de confiança de outros filtros. Para mais informações sobre níveis de confiança da Proteção de dados sensíveis, consulte Probabilidade de correspondência da Proteção de dados sensíveis. Para mais informações sobre a Proteção de Dados Sensíveis em geral, consulte a Visão geral da Proteção de Dados Sensíveis.

Detecção de URL malicioso

Os URLs maliciosos geralmente são disfarçados para parecer legítimos, o que os torna uma ferramenta poderosa para ataques de phishing, distribuição de malware e outras ameaças on-line. Por exemplo, se um PDF tiver um URL malicioso incorporado, ele poderá ser usado para comprometer qualquer sistema downstream que processe saídas de LLM.

Quando a detecção de URL malicioso está ativada, o Model Armor verifica os URLs para identificar se eles são maliciosos. Isso permite que você tome medidas e evite que URLs maliciosos sejam retornados.

Definir o tipo de aplicação

A aplicação define o que acontece depois que uma violação é detectada. Para configurar como o Model Armor processa as detecções, defina o tipo de aplicação. O Model Armor oferece os seguintes tipos de aplicação:

Somente inspeção: inspeciona solicitações que violam as configurações definidas, mas não as bloqueia.
Inspecionar e bloquear: bloqueia solicitações que violam as configurações definidas.

Para usar o Inspect only de forma eficaz e receber insights valiosos, ative o Cloud Logging. Sem o Cloud Logging ativado, o Inspect only não vai gerar informações úteis.

Acesse seus registros pelo Cloud Logging. Filtre pelo nome do serviço modelarmor.googleapis.com. Procure entradas relacionadas às operações que você ativou no modelo. Para mais informações, consulte Ver registros usando o Explorador de registros.

Configurações do Model Armor Floor

Embora os modelos do Model Armor ofereçam flexibilidade para aplicativos individuais, as organizações geralmente precisam estabelecer um nível básico de proteção em todos os aplicativos de IA. É aqui que as configurações de piso do Model Armor são usadas. Elas funcionam como regras que definem requisitos mínimos para todos os modelos criados em um ponto específico da hierarquia de recursos Google Cloud (ou seja, no nível de uma organização, pasta ou projeto).

Para mais informações, consulte Configurações do Model Armor Floor.

Suporte ao idioma

Os filtros do Model Armor ajudam a higienizar comandos e respostas em vários idiomas.

O filtro da Proteção de dados sensíveis é compatível com inglês e outros idiomas, dependendo dos infoTypes selecionados.
Os filtros IA responsável e Detecção de jailbreak e injeção de comando são testados nos seguintes idiomas:
- Chinês (mandarim)
- Inglês
- Francês
- Alemão
- Italiano
- Japonês
- Coreano
- Português
- Espanhol
Esses filtros podem funcionar em muitos outros idiomas, mas a qualidade dos resultados pode variar. Para ver os códigos de idioma, consulte Idiomas compatíveis.

Há duas maneiras de ativar a detecção de vários idiomas:

Ativar em cada solicitação: para um controle granular, ative a detecção de vários idiomas em cada solicitação ao limpar um comando do usuário e limpar uma resposta do modelo.
Ativar uma vez: se você preferir uma configuração mais simples, ative a detecção multilíngue como uma configuração única no nível do modelo do Model Armor usando a API REST. Para mais informações, consulte Criar um modelo do Model Armor.

Triagem de documentos

O texto nos documentos pode incluir conteúdo sensível e malicioso. O Model Armor pode examinar os seguintes tipos de documentos em busca de segurança, tentativas de injeção de comandos e jailbreak , dados sensíveis e URLs maliciosos:

PDFs
CSV
Arquivos de texto: TXT
Documentos do Microsoft Word: DOCX, DOCM, DOTX, DOTM
Slides do Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
Planilhas do Microsoft Excel: XLSX, XLSM, XLTX, XLTM

Preços

O Model Armor pode ser comprado como parte integrada do Security Command Center ou como um serviço independente. Para informações sobre preços, consulte Preços do Security Command Center.

Tokens

Os modelos de IA generativa dividem o texto e outros dados em unidades chamadas tokens. O Model Armor usa o número total de tokens em comandos e respostas de IA para fins de preços. O Model Armor limita o número de tokens processados em cada comando e resposta.

O Model Armor tem limites de token variados, dependendo do filtro específico. Quando a solicitação ou resposta excede o limite de tokens, o filtro de proteção de dados sensíveis retorna EXECUTION_SKIPPED. Todos os outros filtros, se o comando ou a resposta exceder o limite de tokens, vão retornar MATCH_FOUND se conteúdo malicioso for encontrado e EXECUTION_SKIPPED se não for.

Filtro	Limite de tokens
Detecção de jailbreak e injeção de comando	10.000
IA responsável	10.000
Material de abuso sexual infantil	10.000
Proteção de dados sensíveis	Até 130.000

A seguir

Saiba mais sobre os modelos do Model Armor.
Saiba mais sobre as configurações do Model Armor Floor.
Saiba mais sobre os endpoints do Model Armor.
Higienize comandos e respostas.
Saiba mais sobre a geração de registros de auditoria do Model Armor.
Resolver problemas do Model Armor.