Concepts clés

Cette page fournit des informations sur les concepts clés de Model Armor.

Modèles Model Armor

Les modèles Model Armor vous permettent de configurer la façon dont Model Armor filtre les requêtes et les réponses. Ils fonctionnent comme des ensembles de filtres et de seuils personnalisés pour différents niveaux de confiance en matière de sécurité, ce qui permet de contrôler le contenu signalé.

Les seuils représentent des niveaux de confiance. Autrement dit, le degré de confiance de Model Armor concernant la présence de contenu inapproprié dans la requête ou la réponse. Par exemple, vous pouvez créer un modèle qui filtre les requêtes contenant du contenu haineux avec un seuil HIGH, ce qui signifie que Model Armor indique un niveau de confiance élevé que la requête contient du contenu haineux. Un seuil LOW_AND_ABOVE indique n'importe quel niveau de confiance (LOW, MEDIUM et HIGH) dans l'affirmation.

Filtres Model Armor

Model Armor propose différents filtres pour vous aider à fournir des modèles d'IA sûrs et sécurisés. Voici une présentation des catégories de filtres.

Filtre de sécurité de l'IA responsable

Les requêtes et les réponses peuvent être examinées aux niveaux de confiance susmentionnés pour les catégories suivantes :

Catégorie Définition
Incitation à la haine Commentaires négatifs ou offensants ciblant l'identité et/ou les attributs protégés.
Harcèlement Commentaires menaçants, intimidants ou abusifs ciblant une autre personne.
Caractère sexuel explicite Contient des références à des actes sexuels ou à d'autres contenus obscènes.
Contenu dangereux Encourage ou facilite l'accès à des activités, produits et services dangereux.

Le filtre pour les contenus d'abus sexuels sur mineurs est appliqué par défaut et ne peut pas être désactivé.

Détection de l'injection de requêtes et du jailbreak

L'injection de requêtes correspond à une faille de sécurité via laquelle les pirates informatiques créent des commandes spéciales dans l'entrée textuelle (requête) pour tromper un modèle d'IA. L'IA peut alors ignorer ses instructions habituelles, divulguer des informations sensibles ou exécuter des actions pour lesquelles elle n'a pas été conçue. Dans le contexte des LLM, le jailbreaking désigne l'action de contourner les protocoles de sécurité et les consignes éthiques intégrés au modèle. Cela permet au LLM de générer des réponses qu'il était initialement conçu pour éviter, comme des contenus nuisibles, contraires à l'éthique et dangereux.

Lorsque la détection de l'injection de requêtes et du jailbreaking est activée, Model Armor analyse les requêtes et les réponses pour détecter les contenus malveillants. Si une telle requête ou réponse est détectée, Model Armor la bloque.

Protection des données sensibles

Des données sensibles, comme le nom ou l'adresse d'une personne, peuvent être envoyées à un modèle ou fournies dans la réponse d'un modèle, de manière involontaire ou intentionnelle.

Sensitive Data Protection est un service Google Cloud qui vous aide à découvrir, classer et anonymiser les données sensibles. La protection des données sensibles peut identifier les éléments, le contexte et les documents sensibles pour vous aider à réduire le risque de fuite de données entrant et sortant des charges de travail d'IA. Vous pouvez utiliser la protection des données sensibles directement dans Model Armor pour transformer, tokeniser et masquer les éléments sensibles tout en conservant le contexte non sensible. Model Armor peut accepter les modèles d'inspection existants, qui sont des configurations agissant comme des plans pour rationaliser le processus d'analyse et d'identification des données sensibles spécifiques à votre entreprise et à vos besoins de conformité. Vous pouvez ainsi assurer la cohérence et l'interopérabilité entre les autres charges de travail qui utilisent la protection des données sensibles.

Model Armor propose deux modes de configuration de Sensitive Data Protection :

  • Configuration de base de la protection des données sensibles : ce mode permet de configurer plus facilement la protection des données sensibles en spécifiant directement les types de données sensibles à analyser. Il accepte six catégories : CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS et GCP_API_KEY. La configuration de base n'autorise que les opérations d'inspection et n'est pas compatible avec l'utilisation de modèles Sensitive Data Protection. Pour en savoir plus, consultez la page Configuration de base de Sensitive Data Protection.

  • Configuration avancée de la protection des données sensibles : ce mode offre plus de flexibilité et de personnalisation en permettant l'utilisation de modèles de protection des données sensibles. Les modèles Sensitive Data Protection sont des configurations prédéfinies qui vous permettent de spécifier des règles de détection et des techniques d'anonymisation plus précises. La configuration avancée est compatible avec les opérations d'inspection et d'anonymisation.

Bien que des niveaux de confiance puissent être définis pour Sensitive Data Protection, ils fonctionnent légèrement différemment de ceux des autres filtres. Pour en savoir plus sur les niveaux de confiance de Sensitive Data Protection, consultez Probabilité de correspondance de Sensitive Data Protection. Pour en savoir plus sur Sensitive Data Protection en général, consultez Présentation de Sensitive Data Protection.

Détection des URL malveillantes

Les URL malveillantes sont souvent déguisées pour paraître légitimes, ce qui en fait un outil puissant pour les attaques par hameçonnage, la distribution de logiciels malveillants et d'autres menaces en ligne. Par exemple, si un PDF contient une URL malveillante intégrée, il peut être utilisé pour compromettre tous les systèmes en aval qui traitent les sorties LLM.

Lorsque la détection des URL malveillantes est activée, Model Armor analyse les URL pour déterminer si elles sont malveillantes. Cela vous permet d'agir et d'empêcher le renvoi d'URL malveillantes.

Niveaux de confiance de Model Armor

Des niveaux de confiance peuvent être définis pour les catégories de sécurité de l'IA responsable (c'est-à-dire, contenu à caractère sexuel explicite, contenu dangereux, harcèlement et incitation à la haine), l'injection de requêtes et le jailbreaking, ainsi que la protection des données sensibles (y compris la pertinence thématique).

Pour les niveaux de confiance qui autorisent des seuils précis, Model Armor les interprète comme suit :

  • Élevée : identifie si le message contient du contenu avec une probabilité élevée.
  • Moyenne et supérieure : identifie si le message contient du contenu présentant une probabilité moyenne ou élevée.
  • Probabilité basse et supérieure : identifie si le message contient du contenu avec une probabilité faible, moyenne ou élevée.

Définir le type d'application

L'application des règles définit ce qui se passe lorsqu'un cas de non-respect est détecté. Pour configurer la façon dont Model Armor gère les détections, vous devez définir le type d'application. Model Armor propose les types d'application suivants :

  • Inspecter uniquement : les requêtes qui ne respectent pas les paramètres configurés sont inspectées, mais pas bloquées.
  • Inspecter et bloquer : bloque les requêtes qui ne respectent pas les paramètres configurés.

Pour utiliser efficacement Inspect only et obtenir des insights utiles, activez Cloud Logging. Si Cloud Logging n'est pas activé, Inspect only ne fournira aucune information utile.

Accédez à vos journaux via Cloud Logging. Filtrez par nom de service : modelarmor.googleapis.com. Recherchez les entrées liées aux opérations que vous avez activées dans votre modèle. Pour en savoir plus, consultez la page Afficher les journaux à l'aide de l'explorateur de journaux.

Examen des PDF

Le texte des PDF peut inclure du contenu sensible et malveillant. Model Armor peut analyser les PDF pour détecter les tentatives d'injection de requêtes et de jailbreak, les données sensibles, les URL malveillantes et les contenus non sécurisés.

Paramètres de seuil Model Armor

Bien que les modèles Model Armor offrent de la flexibilité pour les applications individuelles, les organisations ont souvent besoin d'établir un niveau de protection de base pour toutes leurs applications d'IA. C'est là que les paramètres de seuil Model Armor sont utilisés. Elles agissent comme des règles qui définissent les exigences minimales pour tous les modèles créés à un point spécifique de la hiérarchie des ressources Google Cloud (c'est-à-dire au niveau d'une organisation, d'un dossier ou d'un projet).

Pour en savoir plus, consultez Paramètres de seuil Model Armor.

Étapes suivantes