As instruções do sistema são uma ferramenta poderosa para orientar o comportamento de modelos de linguagem grandes. Ao fornecer instruções claras e específicas, você ajuda o modelo a gerar respostas seguras e alinhadas às suas políticas.
As instruções do sistema podem ser usadas para aumentar ou substituir os filtros de segurança. As instruções do sistema direcionam diretamente o comportamento do modelo, enquanto os filtros de segurança funcionam como uma barreira contra ataques motivados, bloqueando resultados nocivos que o modelo possa produzir. Nossos testes mostram que, em muitas situações, instruções do sistema bem elaboradas são mais eficazes do que filtros de segurança para gerar resultados seguros.
Esta página descreve as práticas recomendadas para criar instruções do sistema eficazes e atingir essas metas.
Exemplo de instruções do sistema
Traduza as políticas e restrições específicas da sua organização em instruções claras e práticas para o modelo. Isso inclui o seguinte:
- Tópicos proibidos: instrua explicitamente o modelo a evitar gerar saídas que se enquadrem em categorias específicas de conteúdo nocivo, como conteúdo sexual ou discriminatório.
- Assuntos sensíveis: instrua explicitamente o modelo sobre assuntos a serem evitados ou tratados com cautela, como política, religião ou temas polêmicos.
- Exoneração de responsabilidade: forneça uma declaração de exoneração de responsabilidade caso o modelo encontre assuntos proibidos.
Exemplo de como evitar conteúdo que não é seguro:
You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:
* Sexual Content: Do not generate content that is sexually explicit in
nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
promotes violence, incites hatred, promotes discrimination, or disparages on
the basis of race or ethnic origin, religion, disability, age, nationality,
veteran status, sexual orientation, sex, gender, gender identity, caste,
immigration status, or any other characteristic that is associated with
systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
accessories unless absolutely necessary and in a safe and responsible context.
If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"
Diretrizes de brand safety
As instruções do sistema precisam estar alinhadas com a identidade e os valores da sua marca. Isso ajuda o modelo a gerar respostas que contribuem positivamente para a imagem da sua marca e evitam possíveis danos. Considere o seguinte:
- Voz e tom da marca: instrua o modelo a gerar respostas consistentes com o estilo de comunicação da sua marca. Isso pode incluir ser formal ou informal, engraçado ou sério etc.
- Valores da marca: oriente as saídas do modelo para refletir os valores principais da sua marca. Por exemplo, se a sustentabilidade for um valor fundamental, o modelo não poderá gerar conteúdo que promova práticas prejudiciais ao meio ambiente.
- Público-alvo: adapte a linguagem e o estilo do modelo para que ele se conecte com seu público-alvo.
- Conversas controversas ou fora do assunto: dê orientações claras sobre como o modelo deve lidar com tópicos sensíveis ou controversos relacionados à sua marca ou setor.
Exemplo de um agente de atendimento ao cliente para um varejista on-line:
You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.
You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies
You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns
If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"
Instruções para teste e refinamento
Uma das principais vantagens das instruções do sistema em relação aos filtros de segurança é que você pode personalizar e melhorar as instruções do sistema. É crucial fazer o seguinte:
- Faça testes: experimente diferentes versões de instruções para determinar quais geram os resultados mais seguros e eficazes.
- Itere e refine as instruções: atualize as instruções com base no comportamento e no feedback do modelo. Use o Otimizador de comandos para melhorar comandos e instruções do sistema.
- Monitore continuamente as saídas do modelo: revise regularmente as respostas do modelo para identificar áreas em que as instruções precisam ser ajustadas.
Seguindo essas diretrizes, você pode usar instruções do sistema para ajudar o modelo a gerar resultados seguros, responsáveis e alinhados às suas necessidades e políticas específicas.
A seguir
- Saiba mais sobre o monitoramento de abuso.
- Saiba mais sobre a IA responsável.
- Saiba mais sobre governança de dados.