Wichtige Konzepte

Auf dieser Seite finden Sie Informationen zu den wichtigsten Konzepten für Model Armor.

Model Armor-Vorlagen

Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie funktionieren als Sätze benutzerdefinierter Filter und Grenzwerte für verschiedene Sicherheits- und Vertraulichkeitsniveaus und ermöglichen die Kontrolle darüber, welche Inhalte gekennzeichnet werden.

Die Grenzwerte stellen Konfidenzniveaus dar. Das heißt, wie sicher Model Armor ist, dass die Eingabeaufforderung oder Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, die Prompts mit einem HIGH-Schwellenwert nach hasserfüllten Inhalten filtert. Das bedeutet, dass Model Armor mit hoher Wahrscheinlichkeit meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE-Grenzwert gibt an, dass ein beliebiges Konfidenzniveau (LOW, MEDIUM und HIGH) für die Behauptung vorliegt.

Model Armor-Filter

Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle bereitstellen können. Hier finden Sie eine Aufschlüsselung der Filterkategorien.

Sicherheitsfilter für verantwortungsbewusste KI

Prompts und Antworten können mit den oben genannten Vertrauensniveaus für die folgenden Kategorien geprüft werden:

Kategorie Definition
Hassrede Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind
Belästigung Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind
sexuell explizit Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte
Gefährliche Inhalte Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten

Der Filter für Darstellungen des sexuellen Missbrauchs von Kindern wird standardmäßig angewendet und kann nicht deaktiviert werden.

Erkennung von Prompt Injection und Jailbreaking

Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Jailbreaking im Kontext von LLMs bezieht sich auf das Umgehen der Sicherheits- und Ethikprotokolle, die in das Modell integriert sind. Dadurch kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.

Wenn die Erkennung von Prompt Injection und Jailbreaking aktiviert ist, scannt Model Armor Prompts und Antworten auf schädliche Inhalte. Wenn sie erkannt wird, blockiert Model Armor den Prompt oder die Antwort.

Schutz sensibler Daten

Vertrauliche Daten wie der Name oder die Adresse einer Person können versehentlich oder absichtlich an ein Modell gesendet oder in der Antwort eines Modells angegeben werden.

Sensitive Data Protection ist ein Google Cloud -Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können sensible Elemente, Kontext und Dokumente identifiziert werden, um das Risiko von Datenlecks bei KI-Arbeitslasten zu verringern. Sie können Sensitive Data Protection direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während nicht sensible Inhalte beibehalten werden. Model Armor kann vorhandene Prüfvorlagen akzeptieren. Diese Konfigurationen dienen als Blaupausen, um das Scannen und Identifizieren sensibler Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen relevant sind. So können Sie für Konsistenz und Interoperabilität zwischen anderen Arbeitslasten sorgen, die den Schutz sensibler Daten verwenden.

Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:

  • Einfache Konfiguration für den Schutz sensibler Daten: In diesem Modus können Sie den Schutz sensibler Daten einfacher konfigurieren, indem Sie direkt die Typen sensibler Daten angeben, nach denen gesucht werden soll. Es werden sechs Kategorien unterstützt: CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS und GCP_API_KEY. Die einfache Konfiguration ermöglicht nur Inspektionsvorgänge und unterstützt nicht die Verwendung von Vorlagen für den Schutz sensibler Daten. Weitere Informationen finden Sie unter Grundlegende Konfiguration des Schutzes sensibler Daten.

  • Erweiterte Konfiguration des Schutzes sensibler Daten: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten, da Vorlagen für den Schutz sensibler Daten verwendet werden können. Vorlagen für den Schutz sensibler Daten sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationstechniken festlegen können. Die erweiterte Konfiguration unterstützt sowohl Prüf- als auch De-Identifikationsvorgänge.

Für Sensitive Data Protection können zwar Vertrauensniveaus festgelegt werden, sie funktionieren jedoch etwas anders als Vertrauensniveaus für andere Filter. Weitere Informationen zu den Vertrauensniveaus für den Schutz sensibler Daten finden Sie unter Wahrscheinlichkeit von Übereinstimmungen beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten im Allgemeinen finden Sie unter Schutz sensibler Daten – Übersicht.

Erkennung schädlicher URLs

Schädliche URLs sind oft so getarnt, dass sie legitim aussehen. Dadurch sind sie ein wirksames Werkzeug für Phishing-Angriffe, die Verbreitung von Malware und andere Onlinebedrohungen. Wenn eine PDF-Datei beispielsweise eine eingebettete schädliche URL enthält, kann sie verwendet werden, um nachgelagerte Systeme zu gefährden, die LLM-Ausgaben verarbeiten.

Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um festzustellen, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass bösartige URLs zurückgegeben werden.

Model Armor-Konfidenzniveaus

Für die verantwortungsbewussten KI-Sicherheitskategorien (d. h. sexuell explizit, gefährlich, Belästigung und Hassrede), Prompt Injection und Jailbreak sowie den Schutz sensibler Daten (einschließlich Aktualität) können Vertrauenswürdigkeitsstufen festgelegt werden.

Bei Konfidenzniveaus, die granulare Grenzwerte zulassen, werden sie von Model Armor so interpretiert:

  • Hoch: Es wird ermittelt, ob die Nachricht Inhalte mit hoher Wahrscheinlichkeit enthält.
  • Mittel und höher: Identifizieren, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
  • Niedrig und höher: Es wird ermittelt, ob die Nachricht Inhalte mit einer niedrigen, mittleren oder hohen Wahrscheinlichkeit enthält.

Erzwingungstyp definieren

Die Durchsetzung definiert, was passiert, nachdem ein Verstoß erkannt wurde. Sie legen den Erzwingungstyp fest, um zu konfigurieren, wie Model Armor Erkennungen verarbeitet. Model Armor bietet die folgenden Erzwingungstypen:

  • Nur prüfen: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden geprüft, aber nicht blockiert.
  • Prüfen und blockieren: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden blockiert.

Damit Sie Inspect only effektiv nutzen und wertvolle Informationen erhalten können, müssen Sie Cloud Logging aktivieren. Wenn Cloud Logging nicht aktiviert ist, liefert Inspect only keine nützlichen Informationen.

Über Cloud Logging auf Ihre Logs zugreifen Filtern Sie nach dem Dienstnamen modelarmor.googleapis.com. Suchen Sie nach Einträgen, die sich auf die Vorgänge beziehen, die Sie in Ihrer Vorlage aktiviert haben. Weitere Informationen finden Sie unter Logs mit dem Log-Explorer aufrufen.

PDF-Prüfung

Text in PDFs kann schädliche und sensible Inhalte enthalten. Mit Model Armor können PDFs auf Sicherheit, Prompt Injection und Jailbreaking-Versuche, sensible Daten und schädliche URLs geprüft werden.

Model Armor-Mindesteinstellungen

Model Armor-Vorlagen bieten zwar Flexibilität für einzelne Anwendungen, aber Organisationen müssen oft ein grundlegendes Schutzniveau für alle ihre KI-Anwendungen festlegen. Hier werden die Mindesteinstellungen für Model Armor verwendet. Sie fungieren als Regeln, die Mindestanforderungen für alle Vorlagen festlegen, die an einem bestimmten Punkt in der Google Cloud Ressourcenhierarchie erstellt werden, d. h. auf Organisations-, Ordner- oder Projektebene.

Weitere Informationen finden Sie unter Model Armor-Mindestwerte festlegen.

Nächste Schritte