Konsep utama

Halaman ini memberikan informasi tentang konsep utama untuk Model Armor.

Template Model Armor

Template Model Armor memungkinkan Anda mengonfigurasi cara Model Armor menyaring perintah dan respons. Filter ini berfungsi sebagai kumpulan filter dan nilai minimum yang disesuaikan untuk berbagai tingkat keyakinan keamanan dan keselamatan, sehingga memungkinkan kontrol atas konten yang ditandai.

Nilai minimum mewakili tingkat keyakinan. Artinya, seberapa yakin Model Armor bahwa perintah atau respons menyertakan konten yang melanggar. Misalnya, Anda dapat membuat template yang memfilter perintah untuk konten kebencian dengan nilai minimum HIGH, yang berarti Model Armor melaporkan keyakinan tinggi bahwa perintah tersebut berisi konten kebencian. Ambang batas LOW_AND_ABOVE menunjukkan tingkat keyakinan (LOW, MEDIUM, dan HIGH) dalam membuat klaim tersebut.

Filter Model Armor

Model Armor menawarkan berbagai filter untuk membantu Anda menyediakan model AI yang aman dan terlindungi. Berikut perincian kategori filter.

Filter keamanan Responsible AI

Perintah dan respons dapat disaring pada tingkat keyakinan yang disebutkan di atas untuk kategori berikut:

Kategori Definisi
Ujaran Kebencian Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi.
Pelecehan Komentar yang mengancam, mengintimidasi, menindas, atau melecehkan yang menargetkan individu lain.
Seksual Vulgar Berisi referensi ke tindakan seksual atau konten cabul lainnya.
Konten Berbahaya Mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas berbahaya.

Filter materi pelecehan seksual terhadap anak-anak (CSAM) diterapkan secara default dan tidak dapat dinonaktifkan.

Deteksi injeksi perintah dan jailbreak

Injeksi prompt adalah kerentanan keamanan yang memungkinkan penyerang membuat perintah khusus dalam input teks (prompt) untuk menipu model AI. Hal ini dapat menyebabkan AI mengabaikan petunjuk biasanya, mengungkapkan informasi sensitif, atau melakukan tindakan yang tidak dirancang untuk dilakukannya. Jailbreaking dalam konteks LLM mengacu pada tindakan melewati protokol keamanan dan pedoman etika yang dibangun ke dalam model. Hal ini memungkinkan LLM menghasilkan respons yang awalnya dirancang untuk dihindari, seperti konten yang berbahaya, tidak etis, dan berbahaya.

Jika deteksi injeksi prompt dan jailbreak diaktifkan, Model Armor akan memindai perintah dan respons untuk mencari konten berbahaya. Jika terdeteksi, Model Armor akan memblokir perintah atau respons.

Sensitive Data Protection

Data sensitif, seperti nama atau alamat seseorang, dapat dikirim ke model atau diberikan dalam respons model secara tidak sengaja atau disengaja.

Sensitive Data Protection adalah Google Cloud layanan untuk membantu Anda menemukan, mengklasifikasi, dan melakukan de-identifikasi data sensitif. Sensitive Data Protection dapat mengidentifikasi elemen, konteks, dan dokumen sensitif untuk membantu Anda mengurangi risiko kebocoran data yang masuk dan keluar dari beban kerja AI. Anda dapat menggunakan Perlindungan Data Sensitif langsung dalam Model Armor untuk mengubah, membuat token, dan menyamarkan elemen sensitif sambil mempertahankan konteks non-sensitif. Model Armor dapat menerima template inspeksi yang ada, yaitu konfigurasi yang berfungsi seperti cetak biru untuk menyederhanakan proses pemindaian dan identifikasi data sensitif yang spesifik untuk bisnis dan kebutuhan kepatuhan Anda. Dengan begitu, Anda dapat memiliki konsistensi dan interoperabilitas antara beban kerja lain yang menggunakan Perlindungan Data Sensitif.

Model Armor menawarkan dua mode untuk konfigurasi Perlindungan Data Sensitif:

  • Konfigurasi Perlindungan Data Sensitif dasar: Mode ini memberikan cara yang lebih sederhana untuk mengonfigurasi Perlindungan Data Sensitif dengan menentukan secara langsung jenis data sensitif yang akan dipindai. API ini mendukung enam kategori, yaitu, CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS, GCP_API_KEY. Konfigurasi dasar hanya memungkinkan operasi inspeksi dan tidak mendukung penggunaan template Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya, lihat Konfigurasi dasar Perlindungan Data Sensitif.

  • Konfigurasi Perlindungan Data Sensitif lanjutan: Mode ini menawarkan lebih banyak fleksibilitas dan penyesuaian dengan memungkinkan penggunaan template Perlindungan Data Sensitif. Template Perlindungan Data Sensitif adalah konfigurasi bawaan yang memungkinkan Anda menentukan aturan deteksi dan teknik de-identifikasi yang lebih terperinci. Konfigurasi lanjutan mendukung operasi inspeksi dan de-identifikasi.

Meskipun tingkat keyakinan dapat ditetapkan untuk Perlindungan Data Sensitif, tingkat keyakinan ini beroperasi dengan cara yang sedikit berbeda dari tingkat keyakinan untuk filter lainnya. Untuk mengetahui informasi selengkapnya tentang tingkat keyakinan untuk Perlindungan Data Sensitif, lihat Kemungkinan kecocokan Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya tentang Sensitive Data Protection secara umum, lihat Ringkasan Sensitive Data Protection.

Deteksi URL berbahaya

URL berbahaya sering kali disamarkan agar terlihat sah, sehingga menjadi alat yang ampuh untuk serangan phishing, distribusi malware, dan ancaman online lainnya. Misalnya, jika PDF berisi URL berbahaya yang disematkan, URL tersebut dapat digunakan untuk membahayakan sistem hilir yang memproses output LLM.

Jika deteksi URL berbahaya diaktifkan, Model Armor akan memindai URL untuk mengidentifikasi apakah URL tersebut berbahaya. Hal ini memungkinkan Anda mengambil tindakan dan mencegah URL berbahaya ditampilkan.

Tingkat keyakinan Model Armor

Tingkat keyakinan dapat ditetapkan untuk kategori keamanan responsible AI (yaitu, Konten Seksual, Berbahaya, Pelecehan, dan Ujaran Kebencian), Injeksi Perintah dan Jailbreak, serta Perlindungan Data Sensitif (termasuk aktualitas).

Untuk tingkat keyakinan yang memungkinkan ambang batas terperinci, Model Armor menafsirkannya sebagai berikut:

  • Tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan tinggi.
  • Sedang dan lebih tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan sedang atau tinggi.
  • Rendah dan lebih tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan rendah, sedang, atau tinggi.

Menentukan jenis penegakan

Penegakan menentukan apa yang terjadi setelah pelanggaran terdeteksi. Untuk mengonfigurasi cara Model Armor menangani deteksi, Anda menetapkan jenis penegakan. Model Armor menawarkan jenis penerapan berikut:

  • Hanya periksa: Memeriksa permintaan yang melanggar setelan yang dikonfigurasi, tetapi tidak memblokirnya.
  • Periksa dan blokir: Memblokir permintaan yang melanggar setelan yang dikonfigurasi.

Untuk menggunakan Inspect only secara efektif dan mendapatkan insight berharga, aktifkan Cloud Logging. Tanpa mengaktifkan Cloud Logging, Inspect only tidak akan memberikan informasi yang berguna.

Akses log Anda melalui Cloud Logging. Filter menurut nama layanan modelarmor.googleapis.com. Cari entri yang terkait dengan operasi yang Anda aktifkan di template. Untuk mengetahui informasi selengkapnya, lihat Melihat log menggunakan Logs Explorer.

Penayangan PDF

Teks dalam PDF dapat berisi konten sensitif dan berbahaya. Model Armor dapat memindai PDF untuk mendeteksi keamanan, upaya injeksi prompt dan jailbreak, data sensitif, dan URL berbahaya.

Setelan lantai Model Armor

Meskipun template Model Armor memberikan fleksibilitas untuk setiap aplikasi, organisasi sering kali perlu menetapkan tingkat perlindungan dasar di semua aplikasi AI mereka. Di sinilah setelan batas bawah Model Armor digunakan. Aturan ini berfungsi sebagai aturan yang menentukan persyaratan minimum untuk semua template yang dibuat pada titik tertentu dalam hierarki resource Google Cloud (yaitu, di tingkat organisasi, folder, atau project).

Untuk mengetahui informasi selengkapnya, lihat Setelan lantai Model Armor.

Langkah berikutnya