Questa pagina fornisce informazioni sui concetti chiave di Model Armor.
Modelli Model Armor
I modelli Model Armor ti consentono di configurare il modo in cui Model Armor filtra prompt e risposte. Funzionano come insiemi di filtri e soglie personalizzati per diversi livelli di confidenza di sicurezza, consentendo di controllare quali contenuti vengono segnalati.
Le soglie rappresentano i livelli di confidenza. ovvero il livello di confidenza di Model Armor
che il prompt o la risposta includano contenuti offensivi. Ad esempio, puoi creare un modello che filtri i prompt per contenuti che incitano all'odio con una soglia HIGH
, il che significa che Model Armor segnala un'alta confidenza che il prompt contenga contenuti che incitano all'odio. Una soglia LOW_AND_ABOVE
indica qualsiasi livello di
confidenza (LOW
, MEDIUM
e HIGH
) nel fare questa affermazione.
Filtri Model Armor
Model Armor offre una varietà di filtri per aiutarti a fornire modelli di AI sicuri. Ecco una suddivisione delle categorie di filtri.
Filtro di sicurezza AI responsabile
I prompt e le risposte possono essere esaminati ai livelli di confidenza sopra menzionati per le seguenti categorie:
Categoria | Definizione |
---|---|
Incitamento all'odio | Commenti negativi o dannosi rivolti all'identità e/o agli attributi protetti. |
Molestie | Commenti minacciosi, intimidatori, prepotenti o illeciti rivolti a un altro individuo. |
Contenuti sessualmente espliciti | Contiene riferimenti ad atti sessuali o ad altri contenuti osceni. |
Contenuti pericolosi | Promuovono o consentono l'accesso a beni, servizi e attività dannosi. |
Il filtro per il materiale pedopornografico viene applicato per impostazione predefinita e non può essere disattivato.
Rilevamento di prompt injection e jailbreaking
Il prompt injection è una vulnerabilità della sicurezza in cui i malintenzionati creano comandi speciali all'interno dell'input del testo (il prompt) per ingannare un modello di AI. L'AI potrebbe ignorare le istruzioni abituali, rivelare informazioni sensibili o eseguire azioni per le quali non è stata progettata. Il jailbreaking nel contesto degli LLM si riferisce all'atto di bypassare i protocolli di sicurezza e le linee guida etiche integrati nel modello. Ciò consente all'LLM di generare risposte che in origine era progettato per evitare, come contenuti dannosi, non etici e pericolosi.
Quando il rilevamento di prompt injection e jailbreak è abilitato, Model Armor esegue la scansione di prompt e risposte alla ricerca di contenuti dannosi. Se viene rilevato, Model Armor blocca il prompt o la risposta.
Sensitive Data Protection
Dati sensibili, come il nome o l'indirizzo di una persona, potrebbero essere inviati inavvertitamente o intenzionalmente a un modello o forniti nella risposta di un modello.
La protezione dei dati sensibili è un servizio Google Cloud per aiutarti a scoprire, classificare e anonimizzare i dati sensibili. Sensitive Data Protection può identificare elementi, contesto e documenti sensibili per aiutarti a ridurre il rischio di perdita di dati in entrata e in uscita dai carichi di lavoro di AI. Puoi utilizzare Sensitive Data Protection direttamente in Model Armor per trasformare, tokenizzare e oscurare gli elementi sensibili mantenendo il contesto non sensibile. Model Armor può accettare modelli di ispezione esistenti, ovvero configurazioni che fungono da progetti per semplificare il processo di scansione e identificazione dei dati sensibili specifici per la tua attività e le esigenze di conformità. In questo modo, puoi garantire coerenza e interoperabilità tra gli altri carichi di lavoro che utilizzano Sensitive Data Protection.
Model Armor offre due modalità per la configurazione di Sensitive Data Protection:
Configurazione di base di Sensitive Data Protection: questa modalità offre un modo più semplice per configurare Sensitive Data Protection specificando direttamente i tipi di dati sensibili da scansionare. Supporta sei categorie, ovvero
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
,GCP_API_KEY
. La configurazione di base consente solo le operazioni di ispezione e non supporta l'utilizzo dei modelli di Sensitive Data Protection. Per maggiori informazioni, consulta la pagina Configurazione di base di Sensitive Data Protection.Configurazione avanzata di Sensitive Data Protection: questa modalità offre maggiore flessibilità e personalizzazione consentendo l'utilizzo di modelli di Sensitive Data Protection. I modelli di protezione dei dati sensibili sono configurazioni predefinite che ti consentono di specificare regole di rilevamento e tecniche di anonimizzazione più granulari. La configurazione avanzata supporta sia le operazioni di ispezione che di anonimizzazione.
Sebbene i livelli di confidenza possano essere impostati per Sensitive Data Protection, funzionano in modo leggermente diverso rispetto ai livelli di confidenza per altri filtri. Per ulteriori informazioni sui livelli di confidenza per Sensitive Data Protection, consulta Probabilità di corrispondenza di Sensitive Data Protection. Per ulteriori informazioni su Sensitive Data Protection in generale, consulta la panoramica di Sensitive Data Protection.
Rilevamento di URL dannosi
Gli URL dannosi sono spesso camuffati per sembrare legittimi, il che li rende uno strumento potente per attacchi di phishing, distribuzione di malware e altre minacce online. Ad esempio, se un PDF contiene un URL dannoso incorporato, può essere utilizzato per compromettere qualsiasi sistema downstream che elabora gli output LLM.
Quando il rilevamento di URL dannosi è attivato, Model Armor esegue la scansione degli URL per identificare se sono dannosi. In questo modo puoi intervenire e impedire la restituzione di URL dannosi.
Livelli di confidenza di Model Armor
I livelli di confidenza possono essere impostati per le categorie di sicurezza dell'AI responsabile (ovvero Contenuti sessualmente espliciti, Pericolosi, Molestie e Incitamento all'odio), Prompt injection e Jailbreak e Protezione dei dati sensibili (inclusa l'attualità).
Per i livelli di confidenza che consentono soglie granulari, Model Armor li interpreta nel seguente modo:
- Alto: identifica se il messaggio contiene contenuti con un'alta probabilità.
- Media e superiore: identifica se il messaggio contiene contenuti con una probabilità media o alta.
- Soglia bassa e superiore: identifica se il messaggio contiene contenuti con una probabilità bassa, media o alta.
Definisci il tipo di applicazione
L'applicazione definisce cosa succede dopo il rilevamento di una violazione. Per configurare il modo in cui Model Armor gestisce i rilevamenti, imposta il tipo di applicazione. Model Armor offre i seguenti tipi di applicazione:
- Solo ispezione: ispeziona le richieste che violano le impostazioni configurate, ma non le blocca.
- Ispeziona e blocca: blocca le richieste che violano le impostazioni configurate.
Per utilizzare in modo efficace Inspect only
e ottenere insight preziosi, abilita Cloud Logging.
Se Cloud Logging non è abilitato, Inspect only
non fornirà informazioni utili.
Accedi ai log tramite Cloud Logging. Filtra in base al nome del servizio
modelarmor.googleapis.com
. Cerca le voci relative alle operazioni che hai
attivato nel modello. Per saperne di più, vedi
Visualizza i log utilizzando Esplora log.
Screening del PDF
Il testo nei PDF può includere contenuti dannosi e sensibili. Model Armor può analizzare i PDF per verificare la sicurezza, i tentativi di prompt injection e jailbreak, i dati sensibili e gli URL dannosi.
Impostazioni del piano di Model Armor
Sebbene i modelli Model Armor offrano flessibilità per le singole applicazioni, le organizzazioni spesso devono stabilire un livello di base di protezione per tutte le loro applicazioni di AI. È qui che vengono utilizzate le impostazioni del piano Model Armor. Fungono da regole che stabiliscono i requisiti minimi per tutti i modelli creati in un punto specifico della gerarchia delle risorse Google Cloud (ovvero a livello di organizzazione, cartella o progetto).
Per ulteriori informazioni, vedi Impostazioni del piano Model Armor.
Passaggi successivi
- Scopri di più sulla panoramica di Model Armor.
- Scopri di più sui modelli Model Armor.
- Scopri di più sulle impostazioni di base di Model Armor.
- Sanitizza prompt e risposte.
- Scopri di più sull'audit logging di Model Armor.
- Risolvi i problemi di Model Armor.