Model Armor ist ein Google Cloud Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Dabei werden LLM-Prompts und ‑Antworten proaktiv geprüft, um vor verschiedenen Risiken zu schützen und verantwortungsbewusste KI-Praktiken zu gewährleisten. Ob Sie KI in Ihrer Cloud-Umgebung oder sogar bei externen Cloud-Anbietern bereitstellen – Model Armor kann Ihnen helfen, schädliche Eingaben zu verhindern, die Sicherheit von Inhalten zu überprüfen, sensible Daten zu schützen, die Compliance aufrechtzuerhalten und
Architektur
Dieses Architekturdiagramm zeigt eine Anwendung, die Model Armor verwendet, um ein LLM und einen Nutzer zu schützen. Im Folgenden wird der Datenfluss beschrieben.
- Ein Nutzer gibt einen Prompt in die Anwendung ein.
- Model Armor prüft den eingehenden Prompt auf potenziell sensible Inhalte.
- Der Prompt (oder der bereinigte Prompt) wird an das LLM gesendet.
- Das LLM generiert eine Antwort.
- Model Armor prüft die generierte Antwort auf potenziell sensible Inhalte.
- Die Antwort (oder bereinigte Antwort) wird an den Nutzer gesendet. Model Armor sendet eine detaillierte Beschreibung der ausgelösten und nicht ausgelösten Filter in der Antwort.
Model Armor filtert sowohl Eingaben (Prompts) als auch Ausgaben (Antworten), um zu verhindern, dass das LLM mit schädlichen oder sensiblen Inhalten in Berührung kommt oder solche Inhalte generiert.
Anwendungsfälle
Model Armor hat mehrere Anwendungsfälle in verschiedenen Branchen:
Sicherheit
- Das Risiko, dass vertrauliches geistiges Eigentum und personenidentifizierbare Informationen in LLM-Prompts oder -Antworten enthalten sind, wird verringert.
- Schutz vor Prompt Injection- und Jailbreak-Angriffen, um zu verhindern, dass böswillige Akteure KI-Systeme manipulieren, damit sie unbeabsichtigte Aktionen ausführen.
- Text in PDFs auf sensible oder schädliche Inhalte prüfen
Sicherheit und verantwortungsbewusste KI
- Verhindern Sie, dass Ihr Chatbot Lösungen von Mitbewerbern empfiehlt, um die Markenintegrität und Kundentreue zu wahren.
- Organisationen können Social-Media-Beiträge filtern, die von ihrer KI generiert wurden und schädliche Inhalte wie gefährliche oder hasserfüllte Inhalte enthalten.
Model Armor-Vorlagen
Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie funktionieren als Sätze benutzerdefinierter Filter und Grenzwerte für verschiedene Sicherheits- und Vertraulichkeitsniveaus und ermöglichen die Kontrolle darüber, welche Inhalte gekennzeichnet werden.
Die Grenzwerte stellen Konfidenzniveaus dar – wie sicher Model Armor ist, dass der Prompt oder die Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, die Prompts mit hasserfüllten Inhalten mit einem HIGH
-Schwellenwert filtert. Das bedeutet, dass Model Armor mit hoher Wahrscheinlichkeit meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE
-Grenzwert gibt an, dass ein beliebiges Konfidenzniveau (LOW
, MEDIUM
und HIGH
) für die Behauptung vorliegt.
Weitere Informationen finden Sie unter Model Armor-Vorlagen.
Zuverlässigkeitsstufen von Model Armor
Sie können Vertrauenswürdigkeitsstufen für verantwortungsvolle KI-Sicherheitskategorien (sexuell explizit, gefährlich, Belästigung und Hassrede), die Erkennung von Prompt Injection und Jailbreaking sowie den Schutz sensibler Daten (einschließlich Aktualität) festlegen.
Bei Konfidenzniveaus, die detaillierte Grenzwerte zulassen, interpretiert Model Armor sie so:
- Hoch: Gibt an, ob die Nachricht mit hoher Wahrscheinlichkeit Inhalte enthält,
- Mittel und höher: Identifizieren, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
- Niedrig und höher: Es wird ermittelt, ob die Nachricht Inhalte mit einer niedrigen, mittleren oder hohen Wahrscheinlichkeit enthält.
Model Armor-Filter
Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle bereitstellen können. Die folgenden Filterkategorien sind verfügbar.
Sicherheitsfilter für verantwortungsbewusste KI
Sie können Prompts und Antworten mit den oben genannten Vertrauensniveaus für die folgenden Kategorien prüfen:
Kategorie | Definition |
---|---|
Hassrede | Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind |
Belästigung | Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind |
sexuell explizit | Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte |
Gefährliche Inhalte | Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten |
Der Filter für Darstellungen des sexuellen Missbrauchs von Kindern wird standardmäßig angewendet und kann nicht deaktiviert werden.
Erkennung von Prompt Injection und Jailbreaking
Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Jailbreaking im Kontext von LLMs bezieht sich auf das Umgehen der Sicherheits- und ethischen Richtlinien, die in das Modell integriert sind. Dadurch kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.
Wenn die Erkennung von Prompt Injection und Jailbreaking aktiviert ist, scannt Model Armor Prompts und Antworten auf schädliche Inhalte. Wenn sie erkannt wird, blockiert Model Armor den Prompt oder die Antwort.
Schutz sensibler Daten
Sensitive Data Protection ist ein Google Cloud -Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können Sie sensible Elemente, Kontext und Dokumente identifizieren, um das Risiko von Datenlecks bei KI-Arbeitslasten zu verringern. Sie können Sensitive Data Protection direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während nicht sensible Inhalte beibehalten werden. Model Armor kann vorhandene Prüfvorlagen akzeptieren. Diese Konfigurationen dienen als Blaupausen, um das Scannen und Identifizieren sensibler Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen spezifisch sind. So können Sie für Konsistenz und Interoperabilität zwischen anderen Arbeitslasten sorgen, die den Schutz sensibler Daten verwenden.
Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:
Einfache Konfiguration: In diesem Modus konfigurieren Sie Sensitive Data Protection, indem Sie die Typen sensibler Daten angeben, nach denen gesucht werden soll. Dieser Modus unterstützt die folgenden Kategorien:
- Kreditkartennummer
- Sozialversicherungsnummer (SSN) der USA
- Finanzkontonummer
- US-Steuernummer für Einzelpersonen (ITIN)
- Google Cloud Anmeldedaten
- Google Cloud API-Schlüssel
Die einfache Konfiguration ermöglicht nur Inspektionsvorgänge und unterstützt nicht die Verwendung von Vorlagen für den Schutz sensibler Daten. Weitere Informationen finden Sie unter Grundlegende Konfiguration des Schutzes sensibler Daten.
Erweiterte Konfiguration: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten durch Vorlagen für den Schutz sensibler Daten. Vorlagen für den Schutz sensibler Daten sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationstechniken festlegen können. Die erweiterte Konfiguration unterstützt sowohl Prüf- als auch De-Identifikationsvorgänge.
Konfidenzniveaus für Sensitive Data Protection funktionieren etwas anders als Konfidenzniveaus für andere Filter. Weitere Informationen zu den Vertrauensniveaus für den Schutz sensibler Daten finden Sie unter Wahrscheinlichkeit von Übereinstimmungen beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten im Allgemeinen finden Sie unter Schutz sensibler Daten – Übersicht.
Erkennung schädlicher URLs
Schädliche URLs sind oft so getarnt, dass sie legitim aussehen. Dadurch sind sie ein wirksames Werkzeug für Phishing-Angriffe, die Verbreitung von Malware und andere Onlinebedrohungen. Wenn eine PDF-Datei beispielsweise eine eingebettete schädliche URL enthält, kann sie verwendet werden, um nachgelagerte Systeme zu gefährden, die LLM-Ausgaben verarbeiten.
Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um festzustellen, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass bösartige URLs zurückgegeben werden.
Erzwingungstyp definieren
Die Durchsetzung definiert, was passiert, nachdem ein Verstoß erkannt wurde. Sie legen den Erzwingungstyp fest, um zu konfigurieren, wie Model Armor Erkennungen verarbeitet. Model Armor bietet die folgenden Erzwingungstypen:
- Nur prüfen: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden geprüft, aber nicht blockiert.
- Prüfen und blockieren: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden blockiert.
Damit Sie Inspect only
effektiv nutzen und wertvolle Informationen erhalten können, müssen Sie Cloud Logging aktivieren.
Wenn Cloud Logging nicht aktiviert ist, liefert Inspect only
keine nützlichen Informationen.
Über Cloud Logging auf Ihre Logs zugreifen Filtern Sie nach dem Dienstnamen
modelarmor.googleapis.com
. Suchen Sie nach Einträgen, die sich auf die Vorgänge beziehen, die Sie in Ihrer Vorlage aktiviert haben. Weitere Informationen finden Sie unter Logs mit dem Log-Explorer aufrufen.
Model Armor-Mindesteinstellungen
Model Armor-Vorlagen bieten zwar Flexibilität für einzelne Anwendungen, aber Organisationen müssen oft ein grundlegendes Schutzniveau für alle ihre KI-Anwendungen festlegen. Hier werden die Mindesteinstellungen für Model Armor verwendet. Sie fungieren als Regeln, die Mindestanforderungen für alle Vorlagen definieren, die an einem bestimmten Punkt in der Google Cloud Ressourcenhierarchie (d. h. auf Organisations-, Ordner- oder Projektebene) erstellt werden.
Weitere Informationen finden Sie unter Model Armor-Mindestwerte festlegen.
Sprachunterstützung
Model Armor-Filter unterstützen das Bereinigen von Prompts und Antworten in mehreren Sprachen.
- Der Filter für den Schutz sensibler Daten unterstützt Englisch und andere Sprachen, je nachdem, welche infoTypes Sie ausgewählt haben.
Die Filter Responsible AI und Erkennung von Prompt Injection und Jailbreaking werden in den folgenden Sprachen getestet:
- Chinesisch (Mandarin)
- Englisch
- Französisch
- Deutsch
- Italienisch
- Japanisch
- Koreanisch
- Portugiesisch
- Spanisch
Diese Filter können in vielen anderen Sprachen funktionieren, die Qualität der Ergebnisse kann jedoch variieren. Sprachcodes finden Sie unter Unterstützte Sprachen.
Es gibt zwei Möglichkeiten, die Erkennung mehrerer Sprachen zu aktivieren:
Bei jeder Anfrage aktivieren: Für eine detaillierte Steuerung aktivieren Sie die Erkennung mehrerer Sprachen pro Anfrage, wenn Sie einen Nutzer-Prompt bereinigen und eine Modellantwort bereinigen.
Einmalig aktivieren: Wenn Sie eine einfachere Einrichtung bevorzugen, können Sie die mehrsprachige Erkennung einmalig auf Vorlagenebene von Model Armor über die REST API aktivieren. Weitere Informationen finden Sie unter Model Armor-Vorlage erstellen.
Dokumentenprüfung
Text in Dokumenten kann schädliche und sensible Inhalte enthalten. Model Armor kann die folgenden Arten von Dokumenten auf Sicherheit, Prompt Injection- und Jailbreak-Versuche, sensible Daten und schädliche URLs prüfen:
- PDF-Dateien
- CSV
- Textdateien: TXT
- Microsoft Word-Dokumente: DOCX, DOCM, DOTX, DOTM
- Microsoft PowerPoint-Folien: PPTX, PPTM, POTX, POTM, POT
- Microsoft Excel-Tabellen: XLSX, XLSM, XLTX, XLTM
Model Armor lehnt Anfragen zum Scannen von RTF-Dateien mit einer Größe von maximal 50 Byte ab, da solche Dateien mit hoher Wahrscheinlichkeit ungültig sind.
Preise
Model Armor kann als integrierter Bestandteil von Security Command Center oder als eigenständiger Dienst erworben werden. Preisinformationen finden Sie unter Security Command Center-Preise.
Tokens
Modelle für generative KI zerlegen Text und andere Daten in Einheiten, die als Tokens bezeichnet werden. Bei Model Armor wird die Gesamtzahl der Tokens in KI-Prompts und ‑Antworten für die Preisgestaltung verwendet. Model Armor begrenzt die Anzahl der Tokens, die in jedem Prompt und jeder Antwort verarbeitet werden.
Model Armor hat je nach Filter unterschiedliche Tokenlimits.
Wenn der Prompt oder die Antwort das Tokenlimit überschreitet, gibt der Filter für den Schutz sensibler Daten EXECUTION_SKIPPED
zurück. Alle anderen Filter geben MATCH_FOUND
zurück, wenn schädliche Inhalte gefunden werden, und EXECUTION_SKIPPED
, wenn keine schädlichen Inhalte gefunden werden, falls der Prompt oder die Antwort das Tokenlimit überschreitet.
Filter | Tokenlimit |
---|---|
Erkennung von Prompt Injection und Jailbreaking | 10.000 |
Responsible AI | 10.000 |
Darstellungen des sexuellen Missbrauchs von Kindern | 10.000 |
Schutz sensibler Daten | Bis zu 130.000 |
Nächste Schritte
- Weitere Informationen zu Model Armor-Vorlagen
- Weitere Informationen zu Model Armor-Mindesteinstellungen
- Weitere Informationen zu Model Armor-Endpunkten
- Prompts und Antworten bereinigen:
- Audit-Logging für Model Armor
- Probleme mit Model Armor beheben