Esta página se ha traducido con Cloud Translation API.

Instrucciones del sistema sobre seguridad

Las instrucciones del sistema son una herramienta muy útil para guiar el comportamiento de los modelos de lenguaje de gran tamaño. Si proporcionas instrucciones claras y específicas, puedes ayudar al modelo a generar respuestas seguras y acordes con tus políticas.

Las instrucciones del sistema se pueden usar para aumentar o sustituir los filtros de seguridad. Las instrucciones del sistema dirigen directamente el comportamiento del modelo, mientras que los filtros de seguridad actúan como barrera contra los ataques motivados, bloqueando cualquier resultado dañino que pueda producir el modelo. Nuestras pruebas demuestran que, en muchas situaciones, las instrucciones del sistema bien redactadas suelen ser más eficaces que los filtros de seguridad a la hora de generar resultados seguros.

En esta página se describen las prácticas recomendadas para redactar instrucciones del sistema eficaces y alcanzar estos objetivos.

Ejemplo de instrucciones del sistema

Traduce las políticas y las restricciones específicas de tu organización en instrucciones claras y prácticas para el modelo. Por ejemplo, puedes incluir lo siguiente:

Temas prohibidos: indica explícitamente al modelo que evite generar resultados que se incluyan en categorías de contenido dañino específicas, como el contenido sexual o discriminatorio.
Temas sensibles: indica explícitamente al modelo los temas que debe evitar o tratar con precaución, como la política, la religión o los temas controvertidos.
Aviso: Incluye un texto de renuncia de responsabilidad en caso de que el modelo se encuentre con temas prohibidos.

Ejemplo para evitar contenido no seguro:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Directrices de seguridad de la marca

Las instrucciones del sistema deben estar en consonancia con la identidad y los valores de tu marca. De esta forma, el modelo puede ofrecer respuestas que contribuyan positivamente a la imagen de tu marca y evitar posibles daños. Ten en cuenta lo siguiente:

Voz y tono de la marca: indica al modelo que genere respuestas que sean coherentes con el estilo de comunicación de tu marca. Puede ser formal o informal, humorístico o serio, etc.
Valores de marca: guía las respuestas del modelo para que reflejen los valores principales de tu marca. Por ejemplo, si la sostenibilidad es un valor clave, el modelo debe evitar generar contenido que promueva prácticas perjudiciales para el medio ambiente.
Audiencia objetivo: adapta el lenguaje y el estilo del modelo para que conecte con tu audiencia objetivo.
Conversaciones polémicas o fuera de tema: proporciona directrices claras sobre cómo debe abordar el modelo temas sensibles o polémicos relacionados con tu marca o sector.

Ejemplo de un agente de atención al cliente de una tienda online:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Probar y perfeccionar las instrucciones

Una de las principales ventajas de las instrucciones del sistema con respecto a los filtros de seguridad es que puedes personalizarlas y mejorarlas. Es fundamental que hagas lo siguiente:

Realiza pruebas: experimenta con diferentes versiones de las instrucciones para determinar cuáles dan los resultados más seguros y eficaces.
Iterar y perfeccionar las instrucciones: actualiza las instrucciones en función del comportamiento del modelo y de los comentarios. Puedes usar Optimizador de peticiones para mejorar las peticiones y las instrucciones del sistema.
Monitoriza continuamente las salidas del modelo: revisa periódicamente las respuestas del modelo para identificar las áreas en las que es necesario ajustar las instrucciones.

Si sigues estas directrices, podrás usar instrucciones del sistema para ayudar al modelo a generar resultados seguros, responsables y acordes con tus necesidades y políticas específicas.

Siguientes pasos

Consulta información sobre la monitorización de abusos.
Más información sobre la IA responsable
Más información sobre el gobierno de datos