En esta página, se proporciona información sobre los conceptos clave de Model Armor.
Plantillas de Model Armor
Las plantillas de Model Armor te permiten configurar cómo Model Armor examina las instrucciones y respuestas. Funcionan como conjuntos de filtros y umbrales personalizados para diferentes niveles de confianza en la seguridad, lo que permite controlar qué contenido se marca.
Los umbrales representan niveles de confianza. Es decir, qué tan seguro está Model Armor de que la instrucción o la respuesta incluyen contenido ofensivo. Por ejemplo, puedes crear una plantilla que filtre las instrucciones para detectar contenido ofensivo con un umbral de HIGH
, lo que significa que Model Armor informa un alto nivel de confianza de que la instrucción contiene contenido ofensivo. Un umbral de LOW_AND_ABOVE
indica cualquier nivel de confianza (LOW
, MEDIUM
y HIGH
) para hacer esa afirmación.
Filtros de Model Armor
Model Armor ofrece una variedad de filtros para ayudarte a proporcionar modelos de IA seguros. A continuación, se muestra un desglose de las categorías de filtros.
Filtro de seguridad de IA responsable
Las instrucciones y las respuestas se pueden analizar en los niveles de confianza mencionados anteriormente para las siguientes categorías:
Categoría | Definición |
---|---|
Incitación al odio o a la violencia | Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos. |
Acoso | Comentarios amenazantes, intimidantes, de bullying o abusivos dirigidos a otra persona. |
Sexualmente explícito | Incluye referencias a actos sexual o a otro contenido obsceno. |
Contenido peligroso | Promueve o habilita el acceso a bienes, servicios y actividades perjudiciales. |
El filtro de material de abuso sexual infantil (CSAM) se aplica de forma predeterminada y no se puede desactivar.
Detección de inyección de instrucciones y jailbreak
La inyección de instrucciones es una vulnerabilidad de seguridad en la que los atacantes crean comandos especiales en la entrada de texto (la instrucción) para engañar a los modelos de IA. De ese modo, la IA podría pasar por alto sus instrucciones habituales, revelar información sensible o realizar acciones para las que no se diseñó. En el contexto de los LLM, el jailbreaking se refiere a la acción de eludir los protocolos de seguridad y los lineamientos éticos integrados en el modelo. Esto permite que el LLM genere respuestas que originalmente se diseñó para evitar, como contenido dañino, poco ético y peligroso.
Cuando se habilita la detección de inyección de instrucciones y jailbreaking, Model Armor analiza las instrucciones y las respuestas en busca de contenido malicioso. Si se detecta, Model Armor bloquea la instrucción o la respuesta.
Protección de datos sensibles
Los datos sensibles, como el nombre o la dirección de una persona, pueden enviarse a un modelo o proporcionarse en la respuesta de un modelo de forma involuntaria o intencional.
Sensitive Data Protection es un Google Cloud servicio que te ayuda a descubrir, clasificar y desidentificar datos sensibles. Sensitive Data Protection puede identificar elementos, contexto y documentos sensibles para ayudarte a reducir el riesgo de filtración de datos en las cargas de trabajo de IA. Puedes usar la Protección de datos sensibles directamente en Model Armor para transformar, asignar tokens y ocultar elementos sensibles, y, al mismo tiempo, conservar el contexto no sensible. Model Armor puede aceptar plantillas de inspección existentes, que son configuraciones que actúan como planos para optimizar el proceso de análisis e identificación de datos sensibles específicos para tu empresa y tus necesidades de cumplimiento. De esta manera, puedes tener coherencia e interoperabilidad entre otras cargas de trabajo que usan la Protección de datos sensibles.
Model Armor ofrece dos modos para la configuración de Sensitive Data Protection:
Configuración básica de Sensitive Data Protection: Este modo proporciona una forma más sencilla de configurar Sensitive Data Protection, ya que especifica directamente los tipos de datos sensibles que se deben analizar. Admite seis categorías:
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
yGCP_API_KEY
. La configuración básica solo permite operaciones de inspección y no admite el uso de plantillas de Sensitive Data Protection. Para obtener más información, consulta Configuración básica de la Protección de datos sensibles.Configuración avanzada de la Protección de datos sensibles: Este modo ofrece más flexibilidad y personalización, ya que permite el uso de plantillas de la Protección de datos sensibles. Las plantillas de protección de datos sensibles son configuraciones predefinidas que te permiten especificar reglas de detección y técnicas de desidentificación más detalladas. La configuración avanzada admite operaciones de inspección y desidentificación.
Si bien se pueden establecer niveles de confianza para Sensitive Data Protection, funcionan de una manera ligeramente diferente a los niveles de confianza de otros filtros. Para obtener más información sobre los niveles de confianza de Sensitive Data Protection, consulta Probabilidad de coincidencia de Sensitive Data Protection. Para obtener más información sobre Sensitive Data Protection en general, consulta la descripción general de Sensitive Data Protection.
Detección de URLs maliciosas
Las URLs maliciosas suelen disfrazarse para parecer legítimas, lo que las convierte en una herramienta potente para los ataques de phishing, la distribución de software malicioso y otras amenazas en línea. Por ejemplo, si un PDF contiene una URL maliciosa incorporada, se puede usar para comprometer cualquier sistema posterior que procese los resultados del LLM.
Cuando se habilita la detección de URLs maliciosas, Model Armor analiza las URLs para identificar si son maliciosas. Esto te permite tomar medidas y evitar que se devuelvan URLs maliciosas.
Niveles de confianza de Model Armor
Se pueden establecer niveles de confianza para las categorías de seguridad de la IA responsable (es decir, contenido sexual explícito, peligroso, hostigamiento y discurso de odio), la inyección de instrucciones y el jailbreaking, y la protección de datos sensibles (incluida la actualidad).
En el caso de los niveles de confianza que permiten umbrales detallados, Model Armor los interpreta de la siguiente manera:
- Alta: Identifica si el mensaje tiene contenido con una alta probabilidad.
- Probabilidad media y superior: Identifica si el mensaje tiene contenido con una probabilidad media o alta.
- Baja y superior: Identifica si el mensaje tiene contenido con una probabilidad baja, media o alta.
Define el tipo de aplicación
La aplicación de políticas define lo que sucede después de que se detecta un incumplimiento. Para configurar cómo Model Armor controla las detecciones, debes establecer el tipo de aplicación. Model Armor ofrece los siguientes tipos de aplicación:
- Solo inspeccionar: Inspecciona las solicitudes que incumplen la configuración establecida, pero no las bloquea.
- Inspeccionar y bloquear: Bloquea las solicitudes que incumplen la configuración establecida.
Para usar Inspect only
de manera eficaz y obtener estadísticas valiosas, habilita Cloud Logging.
Si Cloud Logging no está habilitado, Inspect only
no generará información útil.
Accede a tus registros a través de Cloud Logging. Filtra por el nombre del servicio
modelarmor.googleapis.com
. Busca entradas relacionadas con las operaciones que habilitaste en tu plantilla. Para obtener más información, consulta
Visualiza los registros con el Explorador de registros.
Revisión de PDF
El texto en los archivos PDF puede incluir contenido sensible y malicioso. Model Armor puede analizar archivos PDF para detectar problemas de seguridad, intentos de inyección de instrucciones y jailbreaking, datos sensibles y URLs maliciosas.
Configuración de Model Armor Floor
Si bien las plantillas de Model Armor brindan flexibilidad para las aplicaciones individuales, las organizaciones a menudo necesitan establecer un nivel de protección de referencia en todas sus aplicaciones de IA. Aquí es donde se usan los parámetros de configuración de límite inferior de Model Armor. Actúan como reglas que dictan los requisitos mínimos para todas las plantillas creadas en un punto específico de la jerarquía de recursos Google Cloud (es decir, a nivel de la organización, la carpeta o el proyecto).
Para obtener más información, consulta Configuración de la protección del modelo.
¿Qué sigue?
- Obtén información sobre la descripción general de Model Armor.
- Obtén información sobre las plantillas de Model Armor.
- Obtén más información sobre la configuración de límites de Model Armor.
- Limpiar las instrucciones y las respuestas
- Obtén más información sobre el registro de auditoría de Model Armor.
- Soluciona problemas de Model Armor.