Sicherheitshinweise für das System

Systemanweisungen sind ein leistungsstarkes Tool, um das Verhalten von Large Language Models zu steuern. Wenn Sie klare und spezifische Anweisungen geben, können Sie dem Modell helfen, Antworten auszugeben, die sicher sind und Ihren Richtlinien entsprechen.

Systemanweisungen können verwendet werden, um Sicherheitsfilter zu ergänzen oder zu ersetzen. Systemanweisungen steuern das Verhalten des Modells direkt, während Sicherheitsfilter als Barriere gegen motivierte Angriffe dienen und alle schädlichen Ausgaben blockieren, die das Modell möglicherweise generiert. Unsere Tests haben gezeigt, dass gut formulierte Systemanweisungen in vielen Situationen oft effektiver sind als Sicherheitsfilter, wenn es darum geht, sichere Ausgaben zu generieren.

Auf dieser Seite finden Sie Best Practices für die Erstellung effektiver Systemanweisungen, um diese Ziele zu erreichen.

Beispiel für Systemanweisungen

Übersetzen Sie die spezifischen Richtlinien und Einschränkungen Ihrer Organisation in klare, umsetzbare Anweisungen für das Modell. Beispiele hierfür sind:

  • Verbotene Themen: Weisen Sie das Modell explizit an, keine Ausgaben zu generieren, die in bestimmte Kategorien schädlicher Inhalte fallen, z. B. sexuelle oder diskriminierende Inhalte.
  • Sensible Themen: Weisen Sie das Modell explizit an, bestimmte Themen zu vermeiden oder mit Vorsicht zu behandeln, z. B. Politik, Religion oder kontroverse Themen.
  • Haftungsausschluss: Geben Sie einen Haftungsausschluss an, falls das Modell auf verbotene Themen stößt.

Beispiel für das Verhindern unsicherer Inhalte:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Richtlinien zur Markensicherheit

Die Systemanweisungen sollten mit der Identität und den Werten Ihrer Marke übereinstimmen. So kann das Modell Antworten ausgeben, die sich positiv auf Ihr Markenimage auswirken und potenzielle Schäden vermeiden. Berücksichtige Folgendes:

  • Markenstimme und ‑ton: Weisen Sie das Modell an, Antworten zu generieren, die dem Kommunikationsstil Ihrer Marke entsprechen. Das kann formell oder informell, humorvoll oder ernst usw. sein.
  • Markenwerte: Steuern Sie die Ausgaben des Modells so, dass sie die Kernwerte Ihrer Marke widerspiegeln. Wenn Nachhaltigkeit beispielsweise ein wichtiger Wert ist, sollte das Modell keine Inhalte generieren, die umweltschädliche Praktiken fördern.
  • Zielgruppe: Passen Sie die Sprache und den Stil des Modells an Ihre Zielgruppe an.
  • Kontroverse oder themenfremde Unterhaltungen: Geben Sie klare Anweisungen dazu, wie das Modell mit sensiblen oder kontroversen Themen im Zusammenhang mit Ihrer Marke oder Branche umgehen soll.

Beispiel für einen Kundenservicemitarbeiter eines Onlinehändlers:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Anweisungen testen und optimieren

Ein wichtiger Vorteil von Systemanweisungen gegenüber Sicherheitsfiltern besteht darin, dass Sie Systemanweisungen anpassen und verbessern können. Folgendes ist wichtig:

  • Tests durchführen: Testen Sie verschiedene Versionen von Anweisungen, um herauszufinden, welche die sichersten und effektivsten Ergebnisse liefern.
  • Anweisungen iterieren und optimieren: Aktualisieren Sie die Anweisungen basierend auf dem beobachteten Modellverhalten und Feedback. Mit Prompt Optimizer können Sie Prompts und Systemanweisungen verbessern.
  • Modellausgaben kontinuierlich überwachen: Überprüfen Sie die Antworten des Modells regelmäßig, um Bereiche zu identifizieren, in denen Anweisungen angepasst werden müssen.

Wenn Sie diese Richtlinien befolgen, können Sie Systemanweisungen verwenden, damit das Modell sichere, verantwortungsbewusste und auf Ihre spezifischen Anforderungen und Richtlinien abgestimmte Ausgaben generiert.

Nächste Schritte