Se usó la API de Cloud Translation para traducir esta página.

Descripción general de Model Armor

Model Armor es un servicio Google Cloud diseñado para mejorar la seguridad de tus aplicaciones basadas en IA. Funciona analizando de forma proactiva las instrucciones y respuestas de LLM, lo que brinda protección contra diversos riesgos y garantiza prácticas IA responsable. Ya sea que implementes IA en tu entorno de nube o incluso en proveedores externos, Model Armor puede ayudarte a evitar entradas maliciosas, verificar la seguridad del contenido, proteger datos sensibles, mantener el cumplimiento y aplicar tus políticas de seguridad de la IA de manera coherente en todo tu diverso panorama de IA.

Arquitectura

Arquitectura de Model Armor En este diagrama de arquitectura, se muestra una aplicación que usa Model Armor para proteger un LLM y un usuario. En los siguientes pasos, se explica el flujo de datos.

Un usuario proporciona una instrucción a la aplicación.
Model Armor inspecciona la instrucción entrante en busca de contenido potencialmente sensible.
El LLM recibe la instrucción (o la instrucción saneada).
El LLM genera una respuesta.
Model Armor inspecciona la respuesta generada en busca de contenido potencialmente sensible.
La respuesta (o respuesta saneada) se envía al usuario. Model Armor envía una descripción detallada de los filtros activados y no activados en la respuesta.

Model Armor filtra tanto la entrada (instrucciones) como la salida (respuestas) para evitar que el LLM se exponga a contenido sensible o malicioso, o que lo genere.

Casos de uso

Model Armor tiene varios casos de uso en múltiples industrias:

Seguridad
- Mitiga el riesgo de que se filtre información de identificación personal (PII) y propiedad intelectual (PI) sensible, y de que se incluya en las respuestas o instrucciones de los LLM.
- Protege contra ataques de inyección de instrucciones y jailbreaking, lo que impide que los actores maliciosos manipulen los sistemas de IA para realizar acciones no deseadas.
- Analiza el texto de los PDFs en busca de contenido sensible o malicioso.
Seguridad y IA responsable
- Evita que tu chatbot recomiende soluciones de la competencia para mantener la integridad de la marca y la lealtad de los clientes.
- Las organizaciones pueden filtrar las publicaciones en redes sociales generadas por su IA que contengan mensajes dañinos, como contenido peligroso o que incite al odio.

Plantillas de Model Armor

Las plantillas de Model Armor te permiten configurar cómo Model Armor examina las instrucciones y las respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza de seguridad, lo que permite controlar qué contenido se marca.

Los umbrales representan niveles de confianza, es decir, la confianza de Model Armor en que la instrucción o la respuesta incluyen contenido ofensivo. Por ejemplo, puedes crear una plantilla que filtre las instrucciones para detectar contenido ofensivo con un umbral de HIGH, lo que significa que Model Armor informa un alto nivel de confianza de que la instrucción contiene contenido ofensivo. Un umbral de LOW_AND_ABOVE indica cualquier nivel de confianza (LOW, MEDIUM y HIGH) para hacer esa afirmación.

Para obtener más información, consulta Plantillas de Model Armor.

Niveles de confianza de Model Armor

Puedes establecer niveles de confianza para las categorías de seguridad de la IA responsable (contenido sexual explícito, peligroso, acoso y discurso de odio), la detección de inyección de instrucciones y jailbreaking, y la protección de datos sensibles (incluida la actualidad).

En el caso de los niveles de confianza que permiten umbrales detallados, Model Armor los interpreta de la siguiente manera:

Alto: Identifica si el mensaje tiene contenido con una alta probabilidad.
Probabilidad media y superior: Identifica si el mensaje tiene contenido con una probabilidad media o alta.
Baja y superior: Identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.

Filtros de Model Armor

Model Armor ofrece una variedad de filtros para ayudarte a proporcionar modelos de IA seguros. Están disponibles las siguientes categorías de filtros.

Filtro de seguridad de IA responsable

Puedes filtrar las instrucciones y respuestas en los niveles de confianza mencionados anteriormente para las siguientes categorías:

Categoría	Definición
Incitación al odio o a la violencia	Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos.
Acoso	Comentarios amenazantes, intimidantes, de bullying o abusivos dirigidos a otra persona.
Sexualmente explícito	Incluye referencias a actos sexual o a otro contenido obsceno.
Contenido peligroso	Promueve o habilita el acceso a bienes, servicios y actividades perjudiciales.

El filtro de material de abuso sexual infantil (CSAM) se aplica de forma predeterminada y no se puede desactivar.

Detección de inyección de instrucciones y jailbreak

La inyección de instrucciones es una vulnerabilidad de seguridad en la que los atacantes crean comandos especiales en la entrada de texto (la instrucción) para engañar a los modelos de IA. De ese modo, la IA podría pasar por alto sus instrucciones habituales, revelar información sensible o realizar acciones para las que no se diseñó. En el contexto de los LLM, el jailbreaking se refiere a la acción de eludir los protocolos de seguridad y los lineamientos éticos integrados en el modelo. Esto permite que el LLM genere respuestas que originalmente se diseñaron para evitar, como contenido dañino, poco ético y peligroso.

Cuando se habilita la detección de inyección de instrucciones y jailbreaking, Model Armor analiza las instrucciones y respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la instrucción o la respuesta.

Protección de datos sensibles

Sensitive Data Protection es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Sensitive Data Protection puede identificar elementos, contexto y documentos sensibles para ayudarte a reducir el riesgo de filtración de datos que entran y salen de las cargas de trabajo de IA. Puedes usar la Protección de datos sensibles directamente en Model Armor para transformar, asignar tokens y redactar elementos sensibles, y, al mismo tiempo, conservar el contexto no sensible. Model Armor puede aceptar plantillas de inspección existentes, que son configuraciones que actúan como planos para optimizar el proceso de análisis e identificación de datos sensibles específicos para tu empresa y tus necesidades de cumplimiento. De esta manera, puedes tener coherencia e interoperabilidad entre otras cargas de trabajo que usan la Protección de datos sensibles.

Model Armor ofrece dos modos para la configuración de Sensitive Data Protection:

Configuración básica: En este modo, configuras la Protección de datos sensibles especificando los tipos de datos sensibles que se deben analizar. Este modo admite las siguientes categorías:
- Número de tarjeta de crédito
- Número de seguridad social (SSN) de EE.UU.
- Número de cuenta financiera
- Número de identificación individual del contribuyente (ITIN) de EE.UU.
- Google Cloud credentials
- Google Cloud Clave de API
La configuración básica solo permite operaciones de inspección y no admite el uso de plantillas de Sensitive Data Protection. Para obtener más información, consulta Configuración básica de la Protección de datos sensibles.
Configuración avanzada: Este modo ofrece más flexibilidad y personalización a través de las plantillas de Protección de datos sensibles. Las plantillas de protección de datos sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.

Los niveles de confianza de Sensitive Data Protection funcionan de una manera ligeramente diferente a los de otros filtros. Para obtener más información sobre los niveles de confianza de Sensitive Data Protection, consulta Probabilidad de coincidencias de Sensitive Data Protection. Para obtener más información sobre Sensitive Data Protection en general, consulta la descripción general de Sensitive Data Protection.

Detección de URLs maliciosas

Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para los ataques de phishing, la distribución de software malicioso y otras amenazas en línea. Por ejemplo, si un PDF contiene una URL maliciosa incorporada, se puede usar para comprometer cualquier sistema posterior que procese los resultados del LLM.

Cuando la detección de URLs maliciosas está habilitada, Model Armor analiza las URLs para identificar si son maliciosas. Esto te permite tomar medidas y evitar que se muestren URLs maliciosas.

Define el tipo de aplicación

La aplicación de políticas define lo que sucede después de que se detecta un incumplimiento. Para configurar cómo Model Armor controla las detecciones, debes establecer el tipo de aplicación. Model Armor ofrece los siguientes tipos de aplicación:

Solo inspección: Inspecciona las solicitudes que incumplen la configuración establecida, pero no las bloquea.
Inspeccionar y bloquear: Bloquea las solicitudes que incumplen la configuración establecida.

Para usar Inspect only de manera eficaz y obtener estadísticas valiosas, habilita Cloud Logging. Si Cloud Logging no está habilitado, Inspect only no proporcionará información útil.

Accede a tus registros a través de Cloud Logging. Filtra por el nombre del servicio modelarmor.googleapis.com. Busca entradas relacionadas con las operaciones que habilitaste en tu plantilla. Para obtener más información, consulta Visualiza los registros con el Explorador de registros.

Configuración de Model Armor Floor

Si bien las plantillas de Model Armor brindan flexibilidad para las aplicaciones individuales, las organizaciones suelen necesitar establecer un nivel de protección básico en todas sus aplicaciones de IA. Aquí es donde se usa la configuración de Model Armor Floor. Actúan como reglas que definen los requisitos mínimos para todas las plantillas creadas en un punto específico de la jerarquía de recursos Google Cloud (es decir, a nivel de organización, carpeta o proyecto).

Para obtener más información, consulta Configuración de Model Armor Floor.

Idiomas admitidos

Los filtros de Model Armor admiten la limpieza de instrucciones y respuestas en varios idiomas.

El filtro de Protección de datos sensibles admite inglés y otros idiomas según los infoTypes que hayas seleccionado.
Los filtros de IA responsable y Detección de inyección de instrucciones y jailbreak se prueban en los siguientes idiomas:
- Chino (mandarín)
- Inglés
- Francés
- Alemán
- Italiano
- Japonés
- Coreano
- Portugués
- Español
Estos filtros pueden funcionar en muchos otros idiomas, pero la calidad de los resultados puede variar. Para conocer los códigos de idioma, consulta Idiomas admitidos.

Existen dos formas de habilitar la detección de varios idiomas:

Habilita la detección en cada solicitud: Para un control detallado, habilita la detección en varios idiomas en cada solicitud cuando sanees una instrucción del usuario y sanees una respuesta del modelo.
Habilitación única: Si prefieres una configuración más simple, puedes habilitar la detección de varios idiomas como una configuración única a nivel de la plantilla de Model Armor con la API de REST. Para obtener más información, consulta Crea una plantilla de Model Armor.

Revisión de documentos

El texto de los documentos puede incluir contenido sensible y malicioso. Model Armor puede analizar los siguientes tipos de documentos para detectar riesgos de seguridad, intentos de inyección de instrucciones y jailbreaking, datos sensibles y URLs maliciosas:

PDF
CSV
Archivos de texto: TXT
Documentos de Microsoft Word: DOCX, DOCM, DOTX y DOTM
Diapositivas de Microsoft PowerPoint: PPTX, PPTM, POTX, POTM y POT
Hojas de Microsoft Excel: XLSX, XLSM, XLTX y XLTM

Precios

Model Armor se puede comprar como parte integrada de Security Command Center o como un servicio independiente. Para obtener información sobre los precios, consulta Precios de Security Command Center.

Tokens

Los modelos de IA generativa dividen el texto y otros datos en unidades llamadas tokens. Model Armor usa la cantidad total de tokens en las instrucciones y respuestas de IA para determinar los precios. Model Armor limita la cantidad de tokens procesados en cada instrucción y respuesta.

Model Armor tiene límites de tokens variables según el filtro específico. Cuando el mensaje o la respuesta superan el límite de tokens, el filtro de Protección de datos sensibles devuelve EXECUTION_SKIPPED. Todos los demás filtros, si la instrucción o la respuesta superan el límite de tokens, devuelven MATCH_FOUND si se encuentra contenido malicioso y EXECUTION_SKIPPED si no se encuentra contenido malicioso.

Filtro	Límite de tokens
Detección de inyección de instrucciones y jailbreak	10,000
IA responsable	10,000
Material de abuso sexual infantil	10,000
Sensitive Data Protection	Hasta 130,000

¿Qué sigue?

Obtén información sobre las plantillas de Model Armor.
Obtén más información sobre la configuración de Model Armor Floor.
Obtén más información sobre los extremos de Model Armor.
Sanitiza las instrucciones y las respuestas.
Obtén más información sobre el registro de auditoría de Model Armor.
Soluciona problemas de Model Armor.