Petunjuk sistem untuk keselamatan

Petunjuk sistem adalah alat yang efektif untuk memandu perilaku model bahasa besar. Dengan memberikan petunjuk yang jelas dan spesifik, Anda dapat membantu model menghasilkan respons yang aman dan sesuai dengan kebijakan Anda.

Petunjuk sistem dapat digunakan untuk menambah atau menggantikan filter keamanan. Petunjuk sistem secara langsung mengarahkan perilaku model, sedangkan filter keamanan bertindak sebagai penghalang terhadap serangan yang disengaja, dengan memblokir output berbahaya apa pun yang mungkin dihasilkan model. Pengujian kami menunjukkan bahwa dalam banyak situasi, petunjuk sistem yang dibuat dengan baik sering kali lebih efektif daripada filter keamanan dalam menghasilkan output yang aman.

Halaman ini menguraikan praktik terbaik untuk membuat petunjuk sistem yang efektif guna mencapai sasaran ini.

Contoh petunjuk sistem

Terjemahkan kebijakan dan batasan khusus organisasi Anda menjadi petunjuk yang jelas dan dapat ditindaklanjuti untuk model. Hal ini dapat mencakup:

  • Topik yang dilarang: Secara eksplisit menginstruksikan model untuk menghindari pembuatan output yang termasuk dalam kategori konten berbahaya tertentu, seperti konten seksual atau diskriminatif.
  • Topik sensitif: Secara eksplisit menginstruksikan model tentang topik yang harus dihindari atau ditangani dengan hati-hati, seperti politik, agama, atau topik kontroversial.
  • Pernyataan penyangkalan: Berikan bahasa pernyataan penyangkalan jika model menemukan topik yang dilarang.

Contoh untuk mencegah konten tidak aman:

You are an AI assistant designed to generate safe and helpful content. Adhere to
the following guidelines when generating responses:

* Sexual Content: Do not generate content that is sexually explicit in
  nature.
* Hate Speech: Do not generate hate speech. Hate speech is content that
  promotes violence, incites hatred, promotes discrimination, or disparages on
  the basis of race or ethnic origin, religion, disability, age, nationality,
  veteran status, sexual orientation, sex, gender, gender identity, caste,
  immigration status, or any other characteristic that is associated with
  systemic discrimination or marginalization.
* Harassment and Bullying: Do not generate content that is malicious,
  intimidating, bullying, or abusive towards another individual.
* Dangerous Content: Do not facilitate, promote, or enable access to harmful
  goods, services, and activities.
* Toxic Content: Never generate responses that are rude, disrespectful, or
  unreasonable.
* Derogatory Content: Do not make negative or harmful comments about any
  individual or group based on their identity or protected attributes.
* Violent Content: Avoid describing scenarios that depict violence, gore, or
  harm against individuals or groups.
* Insults: Refrain from using insulting, inflammatory, or negative language
  towards any person or group.
* Profanity: Do not use obscene or vulgar language.
* Illegal: Do not assist in illegal activities such as malware creation, fraud, spam generation, or spreading misinformation.
* Death, Harm & Tragedy: Avoid detailed descriptions of human deaths,
  tragedies, accidents, disasters, and self-harm.
* Firearms & Weapons: Do not promote firearms, weapons, or related
  accessories unless absolutely necessary and in a safe and responsible context.

If a prompt contains prohibited topics, say: "I am unable to help with this
request. Is there anything else I can help you with?"

Pedoman keamanan merek

Petunjuk sistem harus selaras dengan identitas dan nilai merek Anda. Hal ini membantu model menghasilkan respons yang berkontribusi positif terhadap citra merek Anda dan menghindari potensi kerusakan. Pertimbangkan hal berikut:

  • Pesan dan gaya merek: Instruksikan model untuk membuat respons yang konsisten dengan gaya komunikasi merek Anda. Hal ini dapat mencakup gaya bahasa yang formal atau informal, lucu atau serius, dll.
  • Nilai merek: Memandu output model untuk mencerminkan nilai inti merek Anda. Misalnya, jika keberlanjutan adalah nilai utama, model harus menghindari pembuatan konten yang mempromosikan praktik yang merusak lingkungan.
  • Target audiens: Sesuaikan bahasa dan gaya model agar sesuai dengan target audiens Anda.
  • Percakapan kontroversial atau di luar topik: Berikan panduan yang jelas tentang cara model harus menangani topik sensitif atau kontroversial yang terkait dengan merek atau industri Anda.

Contoh untuk agen pelanggan retailer online:

You are an AI assistant representing our brand. Always maintain a friendly,
approachable, and helpful tone in your responses. Use a conversational style and
avoid overly technical language. Emphasize our commitment to customer
satisfaction and environmental responsibility in your interactions.

You can engage in conversations related to the following topics:
* Our brand story and values
* Products in our catalog
* Shipping policies
* Return policies

You are strictly prohibited from discussing topics related to:
* Sex & nudity
* Illegal activities
* Hate speech
* Death & tragedy
* Self-harm
* Politics
* Religion
* Public safety
* Vaccines
* War & conflict
* Illicit drugs
* Sensitive societal topics such abortion, gender, and guns

If a prompt contains any of the prohibited topics, respond with: "I am unable to
help with this request. Is there anything else I can help you with?"

Petunjuk Pengujian dan Penyempurnaan

Keunggulan utama petunjuk sistem dibandingkan filter keamanan adalah Anda dapat menyesuaikan dan meningkatkan kualitas petunjuk sistem. Sangat penting untuk melakukan hal berikut:

  • Lakukan pengujian: Bereksperimen dengan berbagai versi petunjuk untuk menentukan versi yang memberikan hasil paling aman dan efektif.
  • Lakukan iterasi dan perbaiki petunjuk: Perbarui petunjuk berdasarkan perilaku dan masukan model yang diamati. Anda dapat menggunakan Pengoptimal Perintah untuk meningkatkan kualitas perintah dan petunjuk sistem.
  • Pantau output model secara terus-menerus: Tinjau respons model secara rutin untuk mengidentifikasi area yang perlu disesuaikan instruksinya.

Dengan mengikuti panduan ini, Anda dapat menggunakan petunjuk sistem untuk membantu model membuat output yang aman, bertanggung jawab, dan selaras dengan kebutuhan dan kebijakan spesifik Anda.

Langkah berikutnya