Model Armor adalah layanan Google Cloud yang dirancang untuk meningkatkan keamanan dan keselamatan aplikasi AI Anda. Cara kerjanya adalah dengan secara proaktif menyaring perintah dan respons LLM, melindungi dari berbagai risiko, dan memastikan praktik AI yang bertanggung jawab. Baik Anda men-deploy AI di lingkungan cloud, atau bahkan di penyedia cloud eksternal, Model Armor dapat membantu Anda mencegah input berbahaya, memverifikasi keamanan konten, melindungi data sensitif, menjaga kepatuhan, dan
Arsitektur
Diagram arsitektur ini menunjukkan aplikasi yang menggunakan Model Armor
untuk melindungi LLM dan pengguna. Langkah-langkah berikut menjelaskan alur data.
- Pengguna memberikan perintah ke aplikasi.
- Model Armor memeriksa perintah yang masuk untuk konten yang berpotensi sensitif.
- Perintah (atau perintah yang telah disanitasi) dikirim ke LLM.
- LLM menghasilkan respons.
- Model Armor memeriksa respons yang dihasilkan untuk menemukan konten yang berpotensi sensitif.
- Respons (atau respons yang disanitasi) dikirimkan kepada pengguna. Model Armor mengirimkan deskripsi mendetail tentang filter yang dipicu dan tidak dipicu dalam respons.
Model Armor memfilter input (perintah) dan output (respons) untuk mencegah LLM terpapar atau menghasilkan konten berbahaya atau sensitif.
Kasus penggunaan
Model Armor memiliki beberapa kasus penggunaan di berbagai industri:
Keamanan
- Mengurangi risiko kebocoran kekayaan intelektual (IP) sensitif dan informasi identitas pribadi (PII) agar tidak disertakan dalam perintah atau respons LLM.
- Melindungi dari serangan injeksi perintah dan jailbreak, serta mencegah pelaku kejahatan memanipulasi sistem AI untuk melakukan tindakan yang tidak diinginkan.
- Memindai teks dalam PDF untuk mendeteksi konten sensitif atau berbahaya.
Keamanan dan responsible AI
- Mencegah chatbot Anda merekomendasikan solusi kompetitor, sehingga menjaga integritas merek dan loyalitas pelanggan.
- Organisasi dapat memfilter postingan media sosial yang dibuat oleh AI mereka yang berisi pesan berbahaya, seperti konten berbahaya atau yang menyebarkan kebencian.
Template Model Armor
Template Model Armor memungkinkan Anda mengonfigurasi cara Model Armor menyaring perintah dan respons. Filter ini berfungsi sebagai kumpulan filter dan nilai minimum yang disesuaikan untuk berbagai tingkat keyakinan keamanan dan keselamatan, sehingga memungkinkan kontrol atas konten yang ditandai.
Nilai minimum mewakili tingkat keyakinan—seberapa yakin Model Armor bahwa perintah atau respons menyertakan konten yang melanggar. Misalnya, Anda dapat membuat template yang memfilter perintah untuk konten kebencian dengan nilai minimum HIGH
, yang berarti Model Armor melaporkan keyakinan tinggi bahwa perintah tersebut berisi konten kebencian. Ambang batas LOW_AND_ABOVE
menunjukkan tingkat
keyakinan (LOW
, MEDIUM
, dan HIGH
) dalam membuat klaim tersebut.
Untuk mengetahui informasi selengkapnya, lihat Template Model Armor.
Tingkat keyakinan Model Armor
Anda dapat menetapkan tingkat keyakinan untuk kategori keamanan AI yang bertanggung jawab (konten seksual, berbahaya, pelecehan, dan ujaran kebencian), deteksi injeksi perintah dan jailbreak, serta perlindungan data sensitif (termasuk aktualitas).
Untuk tingkat keyakinan yang memungkinkan ambang batas terperinci, Model Armor menafsirkannya sebagai berikut:
- Tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan tinggi.
- Sedang dan lebih tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan sedang atau tinggi.
- Rendah dan lebih tinggi: Mengidentifikasi apakah pesan memiliki konten dengan kemungkinan rendah, sedang, atau tinggi.
Filter Model Armor
Model Armor menawarkan berbagai filter untuk membantu Anda menyediakan model AI yang aman dan terlindungi. Kategori filter berikut tersedia.
Filter keamanan Responsible AI
Anda dapat menyaring perintah dan respons pada tingkat keyakinan yang disebutkan di atas untuk kategori berikut:
Kategori | Definisi |
---|---|
Ujaran Kebencian | Komentar negatif atau berbahaya yang menargetkan atribut identitas dan/atau dilindungi. |
Pelecehan | Komentar yang mengancam, mengintimidasi, menindas, atau melecehkan yang menargetkan individu lain. |
Seksual Vulgar | Berisi referensi ke tindakan seksual atau konten cabul lainnya. |
Konten Berbahaya | Mempromosikan atau memungkinkan akses ke barang, layanan, dan aktivitas berbahaya. |
Filter materi pelecehan seksual terhadap anak-anak (CSAM) diterapkan secara default dan tidak dapat dinonaktifkan.
Deteksi injeksi prompt dan jailbreak
Injeksi prompt adalah kerentanan keamanan yang memungkinkan penyerang membuat perintah khusus dalam input teks (prompt) untuk menipu model AI. Hal ini dapat membuat AI mengabaikan petunjuk biasanya, mengungkapkan informasi sensitif, atau melakukan tindakan yang tidak dirancang untuk dilakukannya. Jailbreaking dalam konteks LLM mengacu pada tindakan melewati protokol keamanan dan pedoman etika yang dibuat ke dalam model. Hal ini memungkinkan LLM menghasilkan respons yang awalnya dirancang untuk dihindari, seperti konten yang berbahaya, tidak etis, dan berbahaya.
Jika deteksi injeksi prompt dan jailbreak diaktifkan, Model Armor akan memindai perintah dan respons untuk mencari konten berbahaya. Jika terdeteksi, Model Armor akan memblokir perintah atau respons.
Sensitive Data Protection
Sensitive Data Protection adalah Google Cloud layanan untuk membantu Anda menemukan, mengklasifikasi, dan melakukan de-identifikasi data sensitif. Sensitive Data Protection dapat mengidentifikasi elemen, konteks, dan dokumen sensitif untuk membantu Anda mengurangi risiko kebocoran data yang masuk dan keluar dari beban kerja AI. Anda dapat menggunakan Perlindungan Data Sensitif langsung dalam Model Armor untuk mengubah, membuat token, dan menyamarkan elemen sensitif sambil mempertahankan konteks non-sensitif. Model Armor dapat menerima template inspeksi yang ada, yang merupakan konfigurasi yang berfungsi seperti cetak biru untuk menyederhanakan proses pemindaian dan identifikasi data sensitif yang khusus untuk kebutuhan bisnis dan kepatuhan Anda. Dengan begitu, Anda dapat memiliki konsistensi dan interoperabilitas antara beban kerja lain yang menggunakan Perlindungan Data Sensitif.
Model Armor menawarkan dua mode untuk konfigurasi Perlindungan Data Sensitif:
Konfigurasi dasar: Dalam mode ini, Anda mengonfigurasi Perlindungan Data Sensitif dengan menentukan jenis data sensitif yang akan dipindai. Mode ini mendukung kategori berikut:
- Nomor kartu kredit
- Nomor jaminan sosial (SSN) Amerika Serikat
- Nomor rekening keuangan
- Nomor identifikasi wajib pajak perorangan (ITIN) Amerika Serikat
- Google Cloud credentials
- Google Cloud Kunci API
Konfigurasi dasar hanya memungkinkan operasi inspeksi dan tidak mendukung penggunaan template Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya, lihat Konfigurasi dasar Perlindungan Data Sensitif.
Konfigurasi lanjutan: Mode ini menawarkan lebih banyak fleksibilitas dan penyesuaian melalui template Perlindungan Data Sensitif. Template Perlindungan Data Sensitif adalah konfigurasi bawaan yang memungkinkan Anda menentukan aturan deteksi dan teknik de-identifikasi yang lebih terperinci. Konfigurasi lanjutan mendukung operasi inspeksi dan de-identifikasi.
Tingkat keyakinan untuk Perlindungan Data Sensitif beroperasi dengan cara yang sedikit berbeda dengan tingkat keyakinan untuk filter lainnya. Untuk mengetahui informasi selengkapnya tentang tingkat keyakinan untuk Perlindungan Data Sensitif, lihat Kemungkinan kecocokan Perlindungan Data Sensitif. Untuk mengetahui informasi selengkapnya tentang Sensitive Data Protection secara umum, lihat Ringkasan Sensitive Data Protection.
Deteksi URL berbahaya
URL berbahaya sering kali disamarkan agar terlihat sah, sehingga menjadi alat yang ampuh untuk serangan phishing, distribusi malware, dan ancaman online lainnya. Misalnya, jika PDF berisi URL berbahaya yang disematkan, URL tersebut dapat digunakan untuk membahayakan sistem hilir yang memproses output LLM.
Jika deteksi URL berbahaya diaktifkan, Model Armor akan memindai URL untuk mengidentifikasi apakah URL tersebut berbahaya atau tidak. Hal ini memungkinkan Anda mengambil tindakan dan mencegah URL berbahaya ditampilkan.
Menentukan jenis penegakan
Penegakan menentukan apa yang terjadi setelah pelanggaran terdeteksi. Untuk mengonfigurasi cara Model Armor menangani deteksi, Anda menetapkan jenis penegakan. Model Armor menawarkan jenis penerapan berikut:
- Hanya periksa: Memeriksa permintaan yang melanggar setelan yang dikonfigurasi, tetapi tidak memblokirnya.
- Periksa dan blokir: Memblokir permintaan yang melanggar setelan yang dikonfigurasi.
Untuk menggunakan Inspect only
secara efektif dan mendapatkan insight berharga, aktifkan Cloud Logging.
Tanpa mengaktifkan Cloud Logging, Inspect only
tidak akan memberikan informasi yang berguna.
Akses log Anda melalui Cloud Logging. Filter menurut nama layanan
modelarmor.googleapis.com
. Cari entri yang terkait dengan operasi yang Anda aktifkan di template. Untuk mengetahui informasi selengkapnya, lihat
Melihat log menggunakan Logs Explorer.
Setelan lantai Model Armor
Meskipun template Model Armor memberikan fleksibilitas untuk setiap aplikasi, organisasi sering kali perlu menetapkan tingkat perlindungan dasar di semua aplikasi AI mereka. Di sinilah setelan batas bawah Model Armor digunakan. Kebijakan ini berfungsi sebagai aturan yang menentukan persyaratan minimum untuk semua template yang dibuat pada titik tertentu dalam hierarki resource Google Cloud (yaitu, di tingkat organisasi, folder, atau project).
Untuk mengetahui informasi selengkapnya, lihat Setelan lantai Model Armor.
Dukungan bahasa
Filter Model Armor mendukung pembersihan perintah dan respons dalam beberapa bahasa.
- Filter Sensitive Data Protection mendukung bahasa Inggris dan bahasa lainnya, bergantung pada infoTypes yang Anda pilih.
Filter Responsible AI dan Deteksi injeksi perintah dan jailbreak diuji dalam bahasa berikut:
- China (Mandarin)
- Inggris
- Prancis
- Jerman
- Italia
- Jepang
- Korea
- Portugis
- Spanyol
Filter ini dapat berfungsi dalam banyak bahasa lain, tetapi kualitas hasilnya mungkin bervariasi. Untuk kode bahasa, lihat Bahasa yang didukung.
Ada dua cara untuk mengaktifkan deteksi multi-bahasa:
Aktifkan di setiap permintaan: Untuk kontrol terperinci, aktifkan deteksi multi-bahasa berdasarkan per permintaan saat membersihkan perintah pengguna dan membersihkan respons model.
Aktifkan satu kali: Jika lebih menyukai penyiapan yang lebih sederhana, Anda dapat mengaktifkan deteksi multi-bahasa sebagai konfigurasi satu kali di tingkat template Model Armor menggunakan REST API. Untuk mengetahui informasi selengkapnya, lihat Membuat template Model Armor.
Pemeriksaan dokumen
Teks dalam dokumen dapat mencakup konten sensitif dan berbahaya. Model Armor dapat menyaring jenis dokumen berikut untuk memastikan keamanan, upaya injeksi prompt dan jailbreak, data sensitif, dan URL berbahaya:
- CSV
- File teks: TXT
- Dokumen Microsoft Word: DOCX, DOCM, DOTX, DOTM
- Slide Microsoft PowerPoint: PPTX, PPTM, POTX, POTM, POT
- Sheet Microsoft Excel: XLSX, XLSM, XLTX, XLTM
Model Armor menolak permintaan untuk memindai file format teks kaya yang berukuran 50 byte atau kurang, karena file tersebut kemungkinan besar tidak valid.
Harga
Model Armor dapat dibeli sebagai bagian terintegrasi dari Security Command Center atau sebagai layanan mandiri. Untuk mengetahui informasi harga, lihat Harga Security Command Center.
Token
Model AI generatif menguraikan teks dan data lain menjadi unit-unit yang disebut token. Model Armor menggunakan jumlah total token dalam perintah dan respons AI untuk tujuan penetapan harga. Model Armor membatasi jumlah token yang diproses di setiap perintah dan respons.
Model Armor memiliki batas token yang bervariasi, bergantung pada filter tertentu.
Jika perintah atau respons melebihi batas token, filter Sensitive Data Protection
akan menampilkan EXECUTION_SKIPPED
. Semua filter lainnya, jika perintah atau respons melebihi batas token, akan menampilkan MATCH_FOUND
jika konten berbahaya ditemukan dan EXECUTION_SKIPPED
jika tidak ada konten berbahaya yang ditemukan.
Filter | Token limit (batas token) |
---|---|
Deteksi injeksi prompt dan jailbreak | 10.000 |
Responsible AI | 10.000 |
Materi pelecehan seksual terhadap anak-anak | 10.000 |
Sensitive Data Protection | Hingga 130.000 |
Langkah berikutnya
- Pelajari template Model Armor.
- Pelajari setelan lantai Model Armor.
- Pelajari endpoint Model Armor.
- Menghapus informasi sensitif dari perintah dan respons.
- Pelajari logging audit Model Armor.
- Memecahkan masalah Model Armor.